Data Engineering/책정리 6

[빅데이터를 지탱하는 기술] Ch5.빅데이터 파이프관리

5-1.워크플로우 관리 정해진 업무를 원활하게 진행하기 위한 구조 워크플로 관리도구 정기적으로 태스크 실행 비정상적인 상태 감지후 해결 ex) Airflow, azkaban, Digdag, Luigi, Oozie 워크플로 관리도구와 태스크 정해진 개별 반복 처리를 태스크(Task)라고 함 도구를 사용하는 이유는 태스크 실행의 실패 때문 태스크 수 증가로 재실행이 어려워 도구를 활용함 워크플로 관리 도구의 기능 정기적인 스케쥴로 태스크 실행후 통지 태스크간 의존 관계를 정하구 정해진 순서대로 실행 태스크 실행결과 보관, 오류 발생시 재실행 워크플로 관리 도구의 종류 선언 형과 스크립트 형 선언형(declarative) XML, YAML 등의 서식으로 워크플로 기술 미리 제공된 기능만 이용가능하지만 최소한의..

[빅데이터를 지탱하는 기술] Ch4.빅데이터의 축적

4-1 벌크 형과 스트리밍 형의 데이터 수집 빅데이터는 대부분 확장성이 높은 분산 스토리지(distributed storage)에 저장 Hadoop 이라면 HDFS, 클라우드 서비스라면 Amazon S3 객체 스토리지(object storage)에서는 다수의 컴퓨터를 사용해 파일을 여러 디스크에 복사 데이터의 중복화 및 부하 분산 파일 읽고 쓰는데 네트워크 거쳐 실행 여러 디스크에 복사하기 때문에 일부 고장 나더라도 데이터 손실 x 다수의 하드웨어에 분산해 데이터 양 커도 성능 유지 소량에 데이터에서는 오히려 비효율적, 데이터양에 비해 통신 오버헤드가 큼 빅데이터에서 자주 다루는 것은 시계열 데이터 수시로 객체 스토리지에 기록시 대량의 작은 파일이 생성돼 성능 저하 적당히 모아서 하나의 큰 파일로 만드는..

[빅데이터를 지탱하는 기술] Ch3.빅데이터 분산 처리 프레임워크

3-1 대규모 분산 처리의 프레임워크 구조화 데이터(structured data) 스키마(schema) 명확하게 정의된 데이터 테이블 비구조화 데이터(unstured data) 스키마가 없는 데이터 텍스트, 이미지 스키마리스 데이터(schemaless data) CSV, JSON(인터넷을 통해 주고받는 데이터), XML 서식은 정해져 있지만, 컬럼 수나 데이터형은 명확X 일반적으로 구조화 데이터 압축률 높이기 위해 열지향 스토리지로 저장 즉, MPP DB로 저장하거나 Hadoop 상에서 열 지향 스토리지 형식으로 변환 구조화된 데이터중 시간에 따라 증가하는 데이터를 팩트 테이블, 그에 따른 부속 데이터를 디멘젼 테이블데이터 구조화 열 지향 스토리지의 작성 MPP DB의 경우 제품에 따라 스토리지의 형식이..

[빅데이터를 지탱하는 기술] Ch2.빅데이터 탐색

2-1 크로스 집계의 기본 크로스 테이블(cross table): 행, 열 교차 부분에 데이터 보기엔 편하지만 DB에서 다루긴 어려운 형식 DB에서 행 추가는 간단, 열 추가는 어려움 트랜잭션 테이블(transaction table): 행 방향으로만 증가하는 테이블 크로스 집계(cross tabulation): 트랜잭션 테이블 → 크로스 테이블 소량의 데이터로 크로스 집계하는 건 구글 스프레드시트, 엑셀!! 소량 데이터 시각적으로 보기엔 엑셀 굳! 활용 많이 해보자 룩업 테이블(lookup table): 참조 테이블 엑셀 vlookup으로 참조 테이블 구성, 트랜잭션 테이블과 독립적으로 구성 자주 데이터를 볼때는 엑셀보다 BI(Tableau 등) 사용하는게 좋다네 안 써봐서 모르겠지만 룩업 테이블이랑 트..

[빅데이터를 지탱하는 기술] Ch1.빅데이터 기초 지식

1-1 [배경] 빅데이터의 정착 데이터 분석 방법을 모르고 → 책에선 다루지 않음 데이터 처리에 수고와 시간이 걸림 → 알고 싶은 정보가 있다는 가정하 어떻게 효율적으로 처리할지 Hadoop: 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 구글에서 개발된 MapReduce(분산 처리 시스템)를 참고하여 제작됨 초반 데이터 처리 위해 자바 언어로 프로그래밍 → 어려움, SQL쿼리 언어를 Hadoop에서 실행하기 위한 Hive(2009년) 출시 프로그래밍 없이 데이터 집계 가능, 분산 시스템의 간단화로 사용자 확대 NoSQL: 전통적인 관계형 데이터 베이스(RDB) 제약 제거한 데이터 베이스 다양한 조합: ‘키 - 밸류 스토어(key-value store, KVS)’, ‘도큐먼트 스토어(docume..

[빅데이터를 지탱하는 기술] Ch0

2023년은 데이터 엔지니어링에 관련된 공부를 계획하고 있다. 현업 엔지니어로 계신 분들에게 빅.지.기를 추천받아 필요한 개념들은 블로그에 정리 하려고 한다. 목차 ch1. 빅데이터의 기초 지식 ch2. 빅데이터의 탐색 ch3. 빅데이터의 분산 처리 ch4. 빅데이터 축적 ch5. 빅데이터 파이프라인 ch6. 빅데이터 분석 기반의 구축 한 3개월 예상하고 있는데 너무나 많은 일들을 계획하고 있어 더 오래 걸릴수도 있지만 꾸준하게 하려고 한다. 그리고 회사에서도 하둡서버에서 Pyspark로 데이터를 분석하고 있는데 조각된 지식들로 지금 회사에서 데이터를 축적하고 모델링을 하여 고객에게 서비스를 제공하는 시스템이 한 눈에 안들어 오는 상황이다. 아는 만큼 보인다고.. 전혀 모르는 상태임 ㅇㅅㅇ... 그래서 ..