4-1 벌크 형과 스트리밍 형의 데이터 수집 빅데이터는 대부분 확장성이 높은 분산 스토리지(distributed storage)에 저장 Hadoop 이라면 HDFS, 클라우드 서비스라면 Amazon S3 객체 스토리지(object storage)에서는 다수의 컴퓨터를 사용해 파일을 여러 디스크에 복사 데이터의 중복화 및 부하 분산 파일 읽고 쓰는데 네트워크 거쳐 실행 여러 디스크에 복사하기 때문에 일부 고장 나더라도 데이터 손실 x 다수의 하드웨어에 분산해 데이터 양 커도 성능 유지 소량에 데이터에서는 오히려 비효율적, 데이터양에 비해 통신 오버헤드가 큼 빅데이터에서 자주 다루는 것은 시계열 데이터 수시로 객체 스토리지에 기록시 대량의 작은 파일이 생성돼 성능 저하 적당히 모아서 하나의 큰 파일로 만드는..