[PySpark] SparkConf로 Spark 환경설정

프로그래밍/PySpark

[PySpark] SparkConf로 Spark 환경설정

히또아빠 2023. 2. 3. 15:05

Spark를 사용하기 이전에 SparkConf 객체를 사용해 Java system properties를 사용한다.

다같이 사용하는 분석서버에서 데이터 처리나 분석을 할 때 상황에 맞게 적절한 core수 제어나 메모리를 지정한다면 제한된 리소스로 효율적인 데이터 처리 및 분석이 가능하다.

from pyspark.sql import SparkSession
from pyspark import SparkConf


# spark-conf 
conf = SparkConf()
conf.set("spark.driver.memory", "50g")
conf.set("spark.executor.memory", "30g")
conf.set("spark.ui.port","4051")


spark = SparkSession.builder \
    .appName("-") \
    .master("local[*]") \
    .config(conf=conf) \
    .getOrCreate()

옵션	설명
spark.excutor.cores	executor 프로세스에 사용할 코어수
spark.executor.memory	executor 프로세스당 사용할 메모리 용량 JVM 메모리 설정 형식과 동일
spark.driver.cores	드라이버 프로세스에 사용할 코어수
spark.driver.memory	드라이버 프로세스에 사용할 메모리 용량
spark.app.name	어플리케이션 이름, UI에 표시됨
spark.local.dir	디스크에 저장되는 맵 출력 파일, RDD와 같은 데이터 저장 공간
spark.ui.port	노트북에 사용할 포트

Reference

[Apache Spark] Executor 사이즈와 개수 정하기

Holden Karau-High Performance Spark(Jpub) 정리

jaemunbro.medium.com

300x250

저작자표시 (새창열림)

'프로그래밍 > PySpark' 카테고리의 다른 글

[PySpark] 데이터프레임 값을 리스트로 반환하기 (0)	2023.02.10
[PySpark] 빈 데이터 프레임 생성하고 데이터 집어넣기 (0)	2023.02.10
[PySpark] 랜덤표본추출(sample, sampleBy, take_Sample) (1)	2023.02.03
[PySpark] 백분위수(percentile), 사분위수(quantile) (0)	2023.01.25
[PySpark] regexp_replace 함수 (1)	2023.01.17

현재글[PySpark] SparkConf로 Spark 환경설정

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

식뮬레이션

[PySpark] SparkConf로 Spark 환경설정

Reference

'프로그래밍 > PySpark' 카테고리의 다른 글

'프로그래밍/PySpark'의 다른글

티스토리툴바

[PySpark] SparkConf로 Spark 환경설정

Reference

'프로그래밍 > PySpark' 카테고리의 다른 글

'프로그래밍/PySpark'의 다른글

관련글

티스토리툴바