프로그래밍/PySpark

[PySpark] 데이터프레임 값을 리스트로 반환하기

히또아빠 2023. 2. 10. 17:04

pyspark 데이터프레임의 특정 column의 value들을 리스트로 반환하는 방법이다. 여기서 x[2]는 cat2 column을 지칭하고 고유값이 아니라 전체 value를 list로 반환하려면 distinct() 없이 작업을 하면 된다.

df2.show(3)

#+---+----+----+--------+
#|ind|  id|cat2|cat2_cnt|
#+---+----+----+--------+
#|  1|2868| 167|      16|
#|  2|1737| 157|      24|
#|  3|1476| 189|       3|
#+---+----+----+--------+
#only showing top 3 rows

cat2_list = df2.rdd.map(lambda x: x[2]).distinct().collect()
cat2_list.sort()
print(cat2_list)

#['150', '151', '152', '153', '154', '155', '156', '157', '158', '159', '160', '161', '162', '163', '164', '165', '166', '167', '168', '169', '170', '171', '172', '173', '174', '175', '176', '177', '178', '179', '180', '181', '182', '183', '184', '185', '186', '187', '188', '189', '190', '191', '192', '193', '194', '195', '196', '197', '198', '199']

 

300x250
반응형