식뮬레이션

  • 홈
  • 태그
  • 방명록

crossvalidation 1

[PySpark] 5폴드 교차검증(5-fold crossvalidation) 과 모델선택

1.교차검증과 모델선택 ML 알고리즘 마다 조절해야할 하이퍼 파라미터 옵션이 존재하는데 이를 조정하면서 학습데이터에서 과소적합, 과대적합을 방지 할 수 있다. 그 중 교차검증 방법론은 연속적으로 훈련과 검증 단계를 교차해가며 모델 성능을 검증하는데 여기서 주어진 데이터에서 최적의 하이퍼 파라미터를 보유한 가장 성능이 높은 모델을 선택한다. 장점 모든 데이터 셋을 평가, 훈련에 활용 → 과소적합, 과대적합 방지 모델 선택 단점 시간이 오래걸림 위의 사진에서 예시는 5폴드 교차검증으로 학습 데이터와 검증 데이터를 활용하여 검증시 가장 성능이 좋은 모델, 하이퍼 파라미터를 선택한 후 테스트 데이터를 활용하여 마지막 평가 진행. - 로지스틱 파라미터 참고:https://runawayhorse001.github...

Data Science/머신러닝 2023.06.27
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (96)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (0)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (4)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

Copyright © Kakao Corp. All rights reserved.

티스토리툴바