데이터 엔지니어 2

[빅데이터를 지탱하는 기술] Ch3.빅데이터 분산 처리 프레임워크

3-1 대규모 분산 처리의 프레임워크 구조화 데이터(structured data) 스키마(schema) 명확하게 정의된 데이터 테이블 비구조화 데이터(unstured data) 스키마가 없는 데이터 텍스트, 이미지 스키마리스 데이터(schemaless data) CSV, JSON(인터넷을 통해 주고받는 데이터), XML 서식은 정해져 있지만, 컬럼 수나 데이터형은 명확X 일반적으로 구조화 데이터 압축률 높이기 위해 열지향 스토리지로 저장 즉, MPP DB로 저장하거나 Hadoop 상에서 열 지향 스토리지 형식으로 변환 구조화된 데이터중 시간에 따라 증가하는 데이터를 팩트 테이블, 그에 따른 부속 데이터를 디멘젼 테이블데이터 구조화 열 지향 스토리지의 작성 MPP DB의 경우 제품에 따라 스토리지의 형식이..

ETL vs ELT 차이 및 장, 단점

1.ETL(Extract - Transform - Load) Extract(추출): Data source로부터 데이터 추출 Transform(변형): 데이터를 원하는 format으로 변형 Load(적재): DW(데이터 웨어하우스)로 데이터 적재 ETL(Extract - Transform - Load)은 데이터 엔지니어의 기본업무로 데이터 soure로부터 raw 데이터를 추출(Extract)하고 처리 서버에서 원하는 format으로 변형(Transform)하는 과정을 거쳐 DW(데이터 웨어하우스)에 적재(Load)하는 데이터 통합 방법이다. ETL 과정이 필요한 이유는 OLAP(Online Analytical Processing) 데이터 웨어하우스에서는 관계형 SQL 기반의 데이터 구조만 지원하기때문에 r..