식뮬레이션

  • 홈
  • 태그
  • 방명록

하둡 1

Hadoop의 Mapreduce(맵리듀스) vs Spark(스파크)?

하둡 Hdfs 상에 데이터를 저장하고 PySpark로 분석하면서 정확한 시스템 용어나 개념에 대해서 정리해야지 말만하다가 이제라도 공부하고 정리하려고 한다. 다는 모르더라도 기본적인 것은 알고쓰자! 1.하둡(Hdoop)이란 - HDFS, MapReduce? 하둡은 대규모 데이터를 저장하고 처리하는데 사용되는 오픈소스 분산 컴퓨팅 프레임 웤이다. 아파치 소프트웨어 재단에서 개발하고 관리하며, 대용량(large-scalable) 데이터를 여러 대의 컴퓨터 클러스터에서 처리할 수 있도록 설계되어 있다. 여기서 우리가 알고 가야할 핵심적인 개념을 뽑자면 hdfs와 mapreduce이다. Hadoop 분산 파일 시스템(Hadoop Distributed File System, HDFS) HDFS는 대용량 데이터를 ..

Data Engineering/개념 2023.09.20
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (96)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (0)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (4)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

Copyright © Kakao Corp. All rights reserved.

티스토리툴바