식뮬레이션

  • 홈
  • 태그
  • 방명록

DataFrame 1

[PySpark] Union(= unionAll) 함수로 두 데이터 프레임 합치기

PySpark union() 및 unionAll() 함수는 동일한 스키마 또는 구조의 둘 이상의 DataFrame을 병합하는 데 사용된다. 그러면 union 과 unionAll 함수의 차이는 뭘 까? 결론적으로 말하자면 두 함수의 차이는 없다. Spark 2.0.0 버전부터는 unionAll()은 사용되지 않고 union으로 사용된다. 참고사항으로 SQL 언어에서 Union은 중복을 제거하지만 UnionAll은 중복 레코드를 포함한 두 개의 데이터 세트를 병합한다. PySpark에서는 둘 다 동일하게 동작하며 DataFrame 중복을 제거하기 위해선 duplicate() 함수를 사용하는 것이 좋다. import pyspark from pyspark.sql import SparkSession spark =..

프로그래밍/PySpark 2023.07.11
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (92)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (12)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (0)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2026/02   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28

Copyright © Kakao Corp. All rights reserved.

티스토리툴바