식뮬레이션

  • 홈
  • 태그
  • 방명록

Read 1

Parquet vs ORC 데이터 파일 형식 비교하기.

데이터 엔지니어링 분야에서 일하거나 빅 데이터를 다루는 분석가, 과학자라면 데이터를 처리할 때(저장, 호출 등) 스토리지 및 처리에 적합한 파일 형식을 선택해야 한다. 적절한 데이터 파일 형식을 선택함에 따라 대용량 데이터를 효율적으로 저장하고 처리할 수 있는데 그 중 인기 있는 두 가지 파일 형식인 Apache Parquet(아파치 파케이)와 ORC(Optimized Row Columnar)에 대해 설명한다. 1.Apache Parquet(아파치 파케이)란? Apache Parquet은 하둡(hadoop) 에코시스템의 모든 프로젝트에서 사용할 수 있는 컬럼 스토리지 파일 형식이다. 효율성과 성능을 위해 설계되었으며 특히 대규모 데이터셋에서 복잡한 쿼리를 실행하는 데 적합하다. Parquet 파일을 쓸 ..

Data Engineering/개념 2023.09.22
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (96)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (0)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (4)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

Copyright © Kakao Corp. All rights reserved.

티스토리툴바