[PySpark] 데이터프레임 값을 리스트로 반환하기

프로그래밍/PySpark

[PySpark] 데이터프레임 값을 리스트로 반환하기

히또아빠 2023. 2. 10. 17:04

pyspark 데이터프레임의 특정 column의 value들을 리스트로 반환하는 방법이다. 여기서 x[2]는 cat2 column을 지칭하고 고유값이 아니라 전체 value를 list로 반환하려면 distinct() 없이 작업을 하면 된다.

df2.show(3)

#+---+----+----+--------+
#|ind|  id|cat2|cat2_cnt|
#+---+----+----+--------+
#|  1|2868| 167|      16|
#|  2|1737| 157|      24|
#|  3|1476| 189|       3|
#+---+----+----+--------+
#only showing top 3 rows

cat2_list = df2.rdd.map(lambda x: x[2]).distinct().collect()
cat2_list.sort()
print(cat2_list)

#['150', '151', '152', '153', '154', '155', '156', '157', '158', '159', '160', '161', '162', '163', '164', '165', '166', '167', '168', '169', '170', '171', '172', '173', '174', '175', '176', '177', '178', '179', '180', '181', '182', '183', '184', '185', '186', '187', '188', '189', '190', '191', '192', '193', '194', '195', '196', '197', '198', '199']

300x250

저작자표시

'프로그래밍 > PySpark' 카테고리의 다른 글

[PySpark] dense 벡터와 sparse 벡터, UDF로 sparse vector 만들기 (0)	2023.06.08
[PySpark] array 값 합계 컬럼 생성하기 (0)	2023.06.03
[PySpark] 빈 데이터 프레임 생성하고 데이터 집어넣기 (0)	2023.02.10
[PySpark] 랜덤표본추출(sample, sampleBy, take_Sample) (1)	2023.02.03
[PySpark] SparkConf로 Spark 환경설정 (0)	2023.02.03

현재글[PySpark] 데이터프레임 값을 리스트로 반환하기

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

식뮬레이션

[PySpark] 데이터프레임 값을 리스트로 반환하기

'프로그래밍 > PySpark' 카테고리의 다른 글

'프로그래밍/PySpark'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

[PySpark] 데이터프레임 값을 리스트로 반환하기

'프로그래밍 > PySpark' 카테고리의 다른 글

'프로그래밍/PySpark'의 다른글

관련글

티스토리툴바