Data Engineering 18

[프로그래머스] 데이터 엔지니어 study - 4주차

0.질문 review AB test 모델 테스트시 처음에는 작게 시작, 1% 사용자에 대해 별문제 없으면 5%, 10% 점차적으로 늘려감 시리즈D 정도받고, 팀안정화 시 50:50 정도 가능하지 않나 Airflow 알아야 할 부분 시간이 지날수록 DAG가 점점 많아지기 때문에 정해진 시간에 시행되는 cronjob으로는 한계가 있음 Backfill 특정 DAG가 끝나면 다음 DAG, DAG들간의 dependency가 생김 시간순으로 트리거 가능(세가지 방법) 데이터 리니지 파악가능(어떤 데이터로부터 어떤 데이터가 생겨났는지), 데이터 과잉시 디스커버리 이슈, 데이터 카탈로그를 통해서 검색, 데이터 리니지 정보와 카탈로그 연동시 데이터 파악 쉽게 가능, 데이터 허브 데이터 엔지니어 연봉이 높은이유 수요가 큼..

[프로그래머스] 데이터 엔지니어 study - 3주차

0.커리어를 시작하는 관점에서 커리어는 정글짐 - 방향성 다양 40전에 다양한 경험 전문성 - 학습할 자신감, 변화 두려워 하지 않는 마음 1.결과를 내는데 집중하기 성취하는 경험하기 어떤 결과를 낼 것인지 생각 일을 왜하고 어떻게 끝내야 성공으로 끝나는지 나에게 일 준 사람 입장에서 생각하고 문제 정의 중요하지 않는 일은 대충하기 2.성장을 저해하는 요소 나이 혹은 남과의 비교 나에 대한 고정관년 과거의 상처 3.인격적인 성숙 긍정적인 태도 불만 1개, 감사 1개 주기적으로 회고 실수를 인정하는 여유, 모를때 모른다 4.시작과 꾸준함의 중요성 - 복리가 있는 일 시작이 반 꾸준히 매일 운동, 학습(호기심), 네트워킹(사람 만나기), 책읽기(글쓰기) 5.네트워크의 중요성 사람들 만날때 호기심 갖기 첫 인..

[프로그래머스] 데이터 엔지니어 study - 2주차

0. 기억할 부분 현업에서 깨끗한 데이터는 존재 X 항상 의심하고, 실제 레코드 몇개 살펴보기(노가다) 데이터 품질을 체크하는 버릇 기르기 - unit test 형태로 간단하게 만들기 중복된 레코드 확인 최근 데이터 여부 확인(freshness) Primary key uniqueness 지켜지는지 확인 값이 비어있는 컬럼 확인 어느 시점이 되면 데이터 테이블이 무수히 많아짐 회사성장과 관련 메타데이터 관리 이 시점부터는 데이터 Discovery 문제 발생 무슨 테이블에 내가 원하는 정보가 있는지 누구한테 물어봐야 하는지 문제해결: 검색 서비스 이용, DataHub, Amundsen 1. SQL 기본 1-1. 배경 1970년대 IBM에서 개발, Structured Query Langage 2000년대 ha..

ETL vs ELT 차이 및 장, 단점

1.ETL(Extract - Transform - Load) Extract(추출): Data source로부터 데이터 추출 Transform(변형): 데이터를 원하는 format으로 변형 Load(적재): DW(데이터 웨어하우스)로 데이터 적재 ETL(Extract - Transform - Load)은 데이터 엔지니어의 기본업무로 데이터 soure로부터 raw 데이터를 추출(Extract)하고 처리 서버에서 원하는 format으로 변형(Transform)하는 과정을 거쳐 DW(데이터 웨어하우스)에 적재(Load)하는 데이터 통합 방법이다. ETL 과정이 필요한 이유는 OLAP(Online Analytical Processing) 데이터 웨어하우스에서는 관계형 SQL 기반의 데이터 구조만 지원하기때문에 r..

[프로그래머스] 데이터 엔지니어 study - 1주차

일시: 23.01.07(토) 10:00 ~ 한기용 선생님(Max)의 data와 관련된 다양한 경험을 말씀해주심. 커리어 측면에서 여러가지 해보는게 중요 강의에서 설명해주시는 부분은 polyvore, udemy에서 경험기반 그 외 다양한 회사에서 airflow사용, 무엇이고 어떻게 사용하는지 과정 1주차: 데이터팀의 역할, Redshift 2주차: SQL 3주차 ~ 6주차: ETL, Airfolw - SQL,Pyton 커리어를 바라보는 관점 많이 들어오는 질문(3가지) 무엇이 뜨는지 미래대비 무엇을 준비 커리어 고착 무엇을 해야하는지 공통적인 theme → 불안감이 있어 선행 학습을 하려고 함 1.변화를 두려워 하지 말고, 2.필요한 부분을 찾아 자신감을 가지고 학습하는 태도 커리어 성장은 up&down이..

[빅데이터를 지탱하는 기술] Ch2.빅데이터 탐색

2-1 크로스 집계의 기본 크로스 테이블(cross table): 행, 열 교차 부분에 데이터 보기엔 편하지만 DB에서 다루긴 어려운 형식 DB에서 행 추가는 간단, 열 추가는 어려움 트랜잭션 테이블(transaction table): 행 방향으로만 증가하는 테이블 크로스 집계(cross tabulation): 트랜잭션 테이블 → 크로스 테이블 소량의 데이터로 크로스 집계하는 건 구글 스프레드시트, 엑셀!! 소량 데이터 시각적으로 보기엔 엑셀 굳! 활용 많이 해보자 룩업 테이블(lookup table): 참조 테이블 엑셀 vlookup으로 참조 테이블 구성, 트랜잭션 테이블과 독립적으로 구성 자주 데이터를 볼때는 엑셀보다 BI(Tableau 등) 사용하는게 좋다네 안 써봐서 모르겠지만 룩업 테이블이랑 트..

[빅데이터를 지탱하는 기술] Ch1.빅데이터 기초 지식

1-1 [배경] 빅데이터의 정착 데이터 분석 방법을 모르고 → 책에선 다루지 않음 데이터 처리에 수고와 시간이 걸림 → 알고 싶은 정보가 있다는 가정하 어떻게 효율적으로 처리할지 Hadoop: 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 구글에서 개발된 MapReduce(분산 처리 시스템)를 참고하여 제작됨 초반 데이터 처리 위해 자바 언어로 프로그래밍 → 어려움, SQL쿼리 언어를 Hadoop에서 실행하기 위한 Hive(2009년) 출시 프로그래밍 없이 데이터 집계 가능, 분산 시스템의 간단화로 사용자 확대 NoSQL: 전통적인 관계형 데이터 베이스(RDB) 제약 제거한 데이터 베이스 다양한 조합: ‘키 - 밸류 스토어(key-value store, KVS)’, ‘도큐먼트 스토어(docume..

[빅데이터를 지탱하는 기술] Ch0

2023년은 데이터 엔지니어링에 관련된 공부를 계획하고 있다. 현업 엔지니어로 계신 분들에게 빅.지.기를 추천받아 필요한 개념들은 블로그에 정리 하려고 한다. 목차 ch1. 빅데이터의 기초 지식 ch2. 빅데이터의 탐색 ch3. 빅데이터의 분산 처리 ch4. 빅데이터 축적 ch5. 빅데이터 파이프라인 ch6. 빅데이터 분석 기반의 구축 한 3개월 예상하고 있는데 너무나 많은 일들을 계획하고 있어 더 오래 걸릴수도 있지만 꾸준하게 하려고 한다. 그리고 회사에서도 하둡서버에서 Pyspark로 데이터를 분석하고 있는데 조각된 지식들로 지금 회사에서 데이터를 축적하고 모델링을 하여 고객에게 서비스를 제공하는 시스템이 한 눈에 안들어 오는 상황이다. 아는 만큼 보인다고.. 전혀 모르는 상태임 ㅇㅅㅇ... 그래서 ..