데이터 5

airflow에서 start_time, execution_time, backfill, catchup

1.airflow의 시간 https://airflow.apache.org/docs/apache-airflow/stable/faq.html#what-s-the-deal-with-start-date: start_date, execution_date 공식문서 1-1.start_date 실행 날짜가 아니라 스케줄 시작 시간으로 DAG 첫 실행은 'start_date + 실행주기' 에 실행하게 된다. start_date: 2023-08-01 00:00:00 hourly job: schedule: 0 * * * * (매시 0분에 실행) → DAG의 첫 실행은 2023-08-01 01:00:00 daily job: schedule: 0 10 * * * (매일 10시 0분에 실행) → DAG의 첫 실행은 2023-08..

airflow는 어떻게 작동할까? 그리고 DAG란?

기존에 다른 배치 프로그램을 사용하다가 airflow로 넘어오면서 뭐 같은 workflow 프로그램 이겠구나 싶었다. 근데 airflow만의 문법이나 기능? 개념? 등을 새롭게 접하면서 단순히 똑같은 배치 프로그램이라고 생각하고 넘어가기 보다는 찾아보고 정리하는 부분이 필요하다고 느꼈다. 그리고 airflow만의 시간에 대한 공부없이 냅다 dag를 만들어서 구현하려다 보니 너무 고생했어서 여기다 같이 정리 하겠다 ㅇㅅㅇ. 1.airflow란? Apache Airflow™는 python 코드로 워크플로우(workflow)를 개발하고, 스케줄링 및 모니터링하기 위한 오픈 소스 플랫폼. DAG(Directed Acyclic Graph, 유향 비순환 그래프): python으로 작성한 workflow로 이를 통해..

[프로그래머스] 데이터 엔지니어 study - 8주차

1.Database Normalizaion DB를 조직적이고 일관된 방법으로 디자인 → 데이터 정합성 유지, 수정/적재/삭제 용이 사용되는 개념 → Primary key, Composite key, Foregin key 1NF(First Normal Form) 2NF(Second Normal Form) 일단 1NF 만족 Primary Key 중심으로 의존결과 알 수 있어야함 부분적인 의존도 x → 모든 부가 속성들은 Primary Key를 가지고 찾을 수 있어야함 3NF(Third Normal Form) 2NF 만족 전이적 부분 종속성 없어야함 Slowly Changing Dimensionsl DW, DL에서 모든 테이블의 히스토리를 유지하는 것이 중요함 보통은 두개의 timestamp 필드 create..

ETL vs ELT 차이 및 장, 단점

1.ETL(Extract - Transform - Load) Extract(추출): Data source로부터 데이터 추출 Transform(변형): 데이터를 원하는 format으로 변형 Load(적재): DW(데이터 웨어하우스)로 데이터 적재 ETL(Extract - Transform - Load)은 데이터 엔지니어의 기본업무로 데이터 soure로부터 raw 데이터를 추출(Extract)하고 처리 서버에서 원하는 format으로 변형(Transform)하는 과정을 거쳐 DW(데이터 웨어하우스)에 적재(Load)하는 데이터 통합 방법이다. ETL 과정이 필요한 이유는 OLAP(Online Analytical Processing) 데이터 웨어하우스에서는 관계형 SQL 기반의 데이터 구조만 지원하기때문에 r..

ADsP 데이터분석준전문가 합격 후기

2020년 열심히 살아보겠다고 3월쯤에 데이터 분석 준전문가 시험 접수를 하고 취득했었다. 이때까지 한 것들은 많은 것 같은데 글로 남기거나 정리가 안돼 있어 정리 차원에서 티스토리 블로그를 시작했다. 나도 다른 분들의 자격증 취득 후기를 보고 도움을 받았던 터라 기록용으로 남겨두려고 한다. ​1.시험개요 총점: 60점 이상, 과목별 40% 이상시 합격!! 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)는 국가 공인 자격증이며 필기로만 시험이 진행된다. ADsP 자격증을 취득하거나, 학력/경력이 있는 경우 상위 단계인 데이터 분석 전문가(ADP) 취득 자격이 부여된다. ​ 1년에 공식적으로 4회 진행되고, 1회 응시비용은 5만원이다. 2021년..

기타/자격증 2022.11.27