식뮬레이션

  • 홈
  • 태그
  • 방명록

분산 스토리지 1

[빅데이터를 지탱하는 기술] Ch4.빅데이터의 축적

4-1 벌크 형과 스트리밍 형의 데이터 수집 빅데이터는 대부분 확장성이 높은 분산 스토리지(distributed storage)에 저장 Hadoop 이라면 HDFS, 클라우드 서비스라면 Amazon S3 객체 스토리지(object storage)에서는 다수의 컴퓨터를 사용해 파일을 여러 디스크에 복사 데이터의 중복화 및 부하 분산 파일 읽고 쓰는데 네트워크 거쳐 실행 여러 디스크에 복사하기 때문에 일부 고장 나더라도 데이터 손실 x 다수의 하드웨어에 분산해 데이터 양 커도 성능 유지 소량에 데이터에서는 오히려 비효율적, 데이터양에 비해 통신 오버헤드가 큼 빅데이터에서 자주 다루는 것은 시계열 데이터 수시로 객체 스토리지에 기록시 대량의 작은 파일이 생성돼 성능 저하 적당히 모아서 하나의 큰 파일로 만드는..

Data Engineering/책정리 2023.04.02
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (96)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (0)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (4)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Copyright © Kakao Corp. All rights reserved.

티스토리툴바