sort 2

[python] list를 정렬하는 sort, sorted 함수 차이?

Python에서 sort와 sorted 함수는 둘 다 리스트를 정렬하는 데 사용되는 함수입니다. 그러나 이 두 함수 간에 중요한 차이점이 있습니다. sort 함수: sort 함수는 리스트를 제자리에서(in-place) 정렬합니다. 즉, 원래의 리스트를 변경하고 새로운 리스트를 생성하지 않습니다. sort 함수는 아무것도 반환하지 않습니다. 정렬된 결과는 원래 리스트에 적용됩니다. my_list = [3, 1, 2] my_list.sort() print(my_list) # 출력: [1, 2, 3] sorted 함수: sorted 함수는 원래 리스트를 변경하지 않고 새로운 정렬된 리스트를 반환합니다. 정렬된 결과를 다른 변수에 할당하여 사용할 수 있습니다. my_list = [3, 1, 2] sorted_l..

[PySpark] 백분위수(percentile), 사분위수(quantile)

약 1억 5천만건 데이터에서 특정한 값 기준으로 상위 n개의 데이터를 뽑아내는데 orderBy 후 limit(n)을 이용해 추출했다. 근데 너무 오래걸리더라... 값을 기준으로 정렬하는 연산방식이 spark에서 비효율적이라고 어디서 본거 같은데... 그래서 분위수 값을 구해 cut-off 방식으로 데이터를 추출했는데 시간이 더 적게 걸리더라. 우선, 예시를 들기 위해 다음과 같이 PySpark 세팅과 데이터 프레임을 구성했다. 그리고 visit(string 형식)의 값에 대해 분위수 값을 구하려고 한다. from pyspark.sql import SparkSession spark = SparkSession.builder.master("local[1]").appName("regexp_replace").ge..