데이터엔지니어링 4

[빅데이터를 지탱하는 기술] Ch5.빅데이터 파이프관리

5-1.워크플로우 관리 정해진 업무를 원활하게 진행하기 위한 구조 워크플로 관리도구 정기적으로 태스크 실행 비정상적인 상태 감지후 해결 ex) Airflow, azkaban, Digdag, Luigi, Oozie 워크플로 관리도구와 태스크 정해진 개별 반복 처리를 태스크(Task)라고 함 도구를 사용하는 이유는 태스크 실행의 실패 때문 태스크 수 증가로 재실행이 어려워 도구를 활용함 워크플로 관리 도구의 기능 정기적인 스케쥴로 태스크 실행후 통지 태스크간 의존 관계를 정하구 정해진 순서대로 실행 태스크 실행결과 보관, 오류 발생시 재실행 워크플로 관리 도구의 종류 선언 형과 스크립트 형 선언형(declarative) XML, YAML 등의 서식으로 워크플로 기술 미리 제공된 기능만 이용가능하지만 최소한의..

[빅데이터를 지탱하는 기술] Ch2.빅데이터 탐색

2-1 크로스 집계의 기본 크로스 테이블(cross table): 행, 열 교차 부분에 데이터 보기엔 편하지만 DB에서 다루긴 어려운 형식 DB에서 행 추가는 간단, 열 추가는 어려움 트랜잭션 테이블(transaction table): 행 방향으로만 증가하는 테이블 크로스 집계(cross tabulation): 트랜잭션 테이블 → 크로스 테이블 소량의 데이터로 크로스 집계하는 건 구글 스프레드시트, 엑셀!! 소량 데이터 시각적으로 보기엔 엑셀 굳! 활용 많이 해보자 룩업 테이블(lookup table): 참조 테이블 엑셀 vlookup으로 참조 테이블 구성, 트랜잭션 테이블과 독립적으로 구성 자주 데이터를 볼때는 엑셀보다 BI(Tableau 등) 사용하는게 좋다네 안 써봐서 모르겠지만 룩업 테이블이랑 트..

[빅데이터를 지탱하는 기술] Ch1.빅데이터 기초 지식

1-1 [배경] 빅데이터의 정착 데이터 분석 방법을 모르고 → 책에선 다루지 않음 데이터 처리에 수고와 시간이 걸림 → 알고 싶은 정보가 있다는 가정하 어떻게 효율적으로 처리할지 Hadoop: 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 구글에서 개발된 MapReduce(분산 처리 시스템)를 참고하여 제작됨 초반 데이터 처리 위해 자바 언어로 프로그래밍 → 어려움, SQL쿼리 언어를 Hadoop에서 실행하기 위한 Hive(2009년) 출시 프로그래밍 없이 데이터 집계 가능, 분산 시스템의 간단화로 사용자 확대 NoSQL: 전통적인 관계형 데이터 베이스(RDB) 제약 제거한 데이터 베이스 다양한 조합: ‘키 - 밸류 스토어(key-value store, KVS)’, ‘도큐먼트 스토어(docume..

[빅데이터를 지탱하는 기술] Ch0

2023년은 데이터 엔지니어링에 관련된 공부를 계획하고 있다. 현업 엔지니어로 계신 분들에게 빅.지.기를 추천받아 필요한 개념들은 블로그에 정리 하려고 한다. 목차 ch1. 빅데이터의 기초 지식 ch2. 빅데이터의 탐색 ch3. 빅데이터의 분산 처리 ch4. 빅데이터 축적 ch5. 빅데이터 파이프라인 ch6. 빅데이터 분석 기반의 구축 한 3개월 예상하고 있는데 너무나 많은 일들을 계획하고 있어 더 오래 걸릴수도 있지만 꾸준하게 하려고 한다. 그리고 회사에서도 하둡서버에서 Pyspark로 데이터를 분석하고 있는데 조각된 지식들로 지금 회사에서 데이터를 축적하고 모델링을 하여 고객에게 서비스를 제공하는 시스템이 한 눈에 안들어 오는 상황이다. 아는 만큼 보인다고.. 전혀 모르는 상태임 ㅇㅅㅇ... 그래서 ..