Data Engineering/프로그래머스 study 11기 6

[프로그래머스] 데이터 엔지니어 study - 8주차

1.Database Normalizaion DB를 조직적이고 일관된 방법으로 디자인 → 데이터 정합성 유지, 수정/적재/삭제 용이 사용되는 개념 → Primary key, Composite key, Foregin key 1NF(First Normal Form) 2NF(Second Normal Form) 일단 1NF 만족 Primary Key 중심으로 의존결과 알 수 있어야함 부분적인 의존도 x → 모든 부가 속성들은 Primary Key를 가지고 찾을 수 있어야함 3NF(Third Normal Form) 2NF 만족 전이적 부분 종속성 없어야함 Slowly Changing Dimensionsl DW, DL에서 모든 테이블의 히스토리를 유지하는 것이 중요함 보통은 두개의 timestamp 필드 create..

[프로그래머스] 데이터 엔지니어 study - 7주차

1.Spark 기초 hadoop이 1세대라면 스파크 2세대 빅데이터 처리 기술 YARN등을 분산환경으로 사용 Scala로 작성됨 등장 버클리 대학 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 Databricks 스타트업 창업 Spark 3.0 구성 Spark Core: pandas의 데이터 프레임과 같음 Spark SQL Spark ML: scikit learn의 분산 버전 Spark Streaming Spark GraphX 자체 서버 엔진을 들고있는게 아니라 하둡(YARN), Kubernetes 와 같은 resource 매니저 위에서 돌아감 Spark vs MapReduce Spark 기본적으로 메모리 기반 → 메모리 부족시 디스크 사용 하둡(YARN) 이외에도 다른 분산 컴퓨팅 환경 지..

[프로그래머스] 데이터 엔지니어 study - 4주차

0.질문 review AB test 모델 테스트시 처음에는 작게 시작, 1% 사용자에 대해 별문제 없으면 5%, 10% 점차적으로 늘려감 시리즈D 정도받고, 팀안정화 시 50:50 정도 가능하지 않나 Airflow 알아야 할 부분 시간이 지날수록 DAG가 점점 많아지기 때문에 정해진 시간에 시행되는 cronjob으로는 한계가 있음 Backfill 특정 DAG가 끝나면 다음 DAG, DAG들간의 dependency가 생김 시간순으로 트리거 가능(세가지 방법) 데이터 리니지 파악가능(어떤 데이터로부터 어떤 데이터가 생겨났는지), 데이터 과잉시 디스커버리 이슈, 데이터 카탈로그를 통해서 검색, 데이터 리니지 정보와 카탈로그 연동시 데이터 파악 쉽게 가능, 데이터 허브 데이터 엔지니어 연봉이 높은이유 수요가 큼..

[프로그래머스] 데이터 엔지니어 study - 3주차

0.커리어를 시작하는 관점에서 커리어는 정글짐 - 방향성 다양 40전에 다양한 경험 전문성 - 학습할 자신감, 변화 두려워 하지 않는 마음 1.결과를 내는데 집중하기 성취하는 경험하기 어떤 결과를 낼 것인지 생각 일을 왜하고 어떻게 끝내야 성공으로 끝나는지 나에게 일 준 사람 입장에서 생각하고 문제 정의 중요하지 않는 일은 대충하기 2.성장을 저해하는 요소 나이 혹은 남과의 비교 나에 대한 고정관년 과거의 상처 3.인격적인 성숙 긍정적인 태도 불만 1개, 감사 1개 주기적으로 회고 실수를 인정하는 여유, 모를때 모른다 4.시작과 꾸준함의 중요성 - 복리가 있는 일 시작이 반 꾸준히 매일 운동, 학습(호기심), 네트워킹(사람 만나기), 책읽기(글쓰기) 5.네트워크의 중요성 사람들 만날때 호기심 갖기 첫 인..

[프로그래머스] 데이터 엔지니어 study - 2주차

0. 기억할 부분 현업에서 깨끗한 데이터는 존재 X 항상 의심하고, 실제 레코드 몇개 살펴보기(노가다) 데이터 품질을 체크하는 버릇 기르기 - unit test 형태로 간단하게 만들기 중복된 레코드 확인 최근 데이터 여부 확인(freshness) Primary key uniqueness 지켜지는지 확인 값이 비어있는 컬럼 확인 어느 시점이 되면 데이터 테이블이 무수히 많아짐 회사성장과 관련 메타데이터 관리 이 시점부터는 데이터 Discovery 문제 발생 무슨 테이블에 내가 원하는 정보가 있는지 누구한테 물어봐야 하는지 문제해결: 검색 서비스 이용, DataHub, Amundsen 1. SQL 기본 1-1. 배경 1970년대 IBM에서 개발, Structured Query Langage 2000년대 ha..

[프로그래머스] 데이터 엔지니어 study - 1주차

일시: 23.01.07(토) 10:00 ~ 한기용 선생님(Max)의 data와 관련된 다양한 경험을 말씀해주심. 커리어 측면에서 여러가지 해보는게 중요 강의에서 설명해주시는 부분은 polyvore, udemy에서 경험기반 그 외 다양한 회사에서 airflow사용, 무엇이고 어떻게 사용하는지 과정 1주차: 데이터팀의 역할, Redshift 2주차: SQL 3주차 ~ 6주차: ETL, Airfolw - SQL,Pyton 커리어를 바라보는 관점 많이 들어오는 질문(3가지) 무엇이 뜨는지 미래대비 무엇을 준비 커리어 고착 무엇을 해야하는지 공통적인 theme → 불안감이 있어 선행 학습을 하려고 함 1.변화를 두려워 하지 말고, 2.필요한 부분을 찾아 자신감을 가지고 학습하는 태도 커리어 성장은 up&down이..