pyspark 데이터프레임의 특정 column의 value들을 리스트로 반환하는 방법이다. 여기서 x[2]는 cat2 column을 지칭하고 고유값이 아니라 전체 value를 list로 반환하려면 distinct() 없이 작업을 하면 된다.
df2.show(3)
#+---+----+----+--------+
#|ind| id|cat2|cat2_cnt|
#+---+----+----+--------+
#| 1|2868| 167| 16|
#| 2|1737| 157| 24|
#| 3|1476| 189| 3|
#+---+----+----+--------+
#only showing top 3 rows
cat2_list = df2.rdd.map(lambda x: x[2]).distinct().collect()
cat2_list.sort()
print(cat2_list)
#['150', '151', '152', '153', '154', '155', '156', '157', '158', '159', '160', '161', '162', '163', '164', '165', '166', '167', '168', '169', '170', '171', '172', '173', '174', '175', '176', '177', '178', '179', '180', '181', '182', '183', '184', '185', '186', '187', '188', '189', '190', '191', '192', '193', '194', '195', '196', '197', '198', '199']
300x250
반응형
'프로그래밍 > PySpark' 카테고리의 다른 글
[PySpark] dense 벡터와 sparse 벡터, UDF로 sparse vector 만들기 (0) | 2023.06.08 |
---|---|
[PySpark] array 값 합계 컬럼 생성하기 (0) | 2023.06.03 |
[PySpark] 빈 데이터 프레임 생성하고 데이터 집어넣기 (0) | 2023.02.10 |
[PySpark] 랜덤표본추출(sample, sampleBy, take_Sample) (1) | 2023.02.03 |
[PySpark] SparkConf로 Spark 환경설정 (0) | 2023.02.03 |