데이터엔지니어 3

[프로그래머스] 데이터 엔지니어 study - 7주차

1.Spark 기초 hadoop이 1세대라면 스파크 2세대 빅데이터 처리 기술 YARN등을 분산환경으로 사용 Scala로 작성됨 등장 버클리 대학 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 Databricks 스타트업 창업 Spark 3.0 구성 Spark Core: pandas의 데이터 프레임과 같음 Spark SQL Spark ML: scikit learn의 분산 버전 Spark Streaming Spark GraphX 자체 서버 엔진을 들고있는게 아니라 하둡(YARN), Kubernetes 와 같은 resource 매니저 위에서 돌아감 Spark vs MapReduce Spark 기본적으로 메모리 기반 → 메모리 부족시 디스크 사용 하둡(YARN) 이외에도 다른 분산 컴퓨팅 환경 지..

[프로그래머스] 데이터 엔지니어 study - 4주차

0.질문 reviewAB test모델 테스트시 처음에는 작게 시작, 1% 사용자에 대해별문제 없으면 5%, 10% 점차적으로 늘려감시리즈D 정도받고, 팀안정화 시 50:50 정도 가능하지 않나Airflow 알아야 할 부분시간이 지날수록 DAG가 점점 많아지기 때문에 정해진 시간에 시행되는 cronjob으로는 한계가 있음Backfill특정 DAG가 끝나면 다음 DAG, DAG들간의 dependency가 생김시간순으로 트리거 가능(세가지 방법)데이터 리니지 파악가능(어떤 데이터로부터 어떤 데이터가 생겨났는지), 데이터 과잉시 디스커버리 이슈, 데이터 카탈로그를 통해서 검색, 데이터 리니지 정보와 카탈로그 연동시 데이터 파악 쉽게 가능, 데이터 허브데이터 엔지니어 연봉이 높은이유수요가 큼학습이 많이 필요서포트..

[프로그래머스] 데이터 엔지니어 study - 2주차

0. 기억할 부분 현업에서 깨끗한 데이터는 존재 X 항상 의심하고, 실제 레코드 몇개 살펴보기(노가다) 데이터 품질을 체크하는 버릇 기르기 - unit test 형태로 간단하게 만들기 중복된 레코드 확인 최근 데이터 여부 확인(freshness) Primary key uniqueness 지켜지는지 확인 값이 비어있는 컬럼 확인 어느 시점이 되면 데이터 테이블이 무수히 많아짐 회사성장과 관련 메타데이터 관리 이 시점부터는 데이터 Discovery 문제 발생 무슨 테이블에 내가 원하는 정보가 있는지 누구한테 물어봐야 하는지 문제해결: 검색 서비스 이용, DataHub, Amundsen 1. SQL 기본 1-1. 배경 1970년대 IBM에서 개발, Structured Query Langage 2000년대 ha..