식뮬레이션

  • 홈
  • 태그
  • 방명록

Eda 1

[PySpark] 신용카드 사기거래 탐지 모델링(1) - 데이터 탐색

실제 데이터 모델링 업무를 하다보면 클래스 불균형(class imbalanced, 라벨 불균형)인 데이터를 자주 만나게 된다. 일반적으로, 머신러닝 모델은 클래스의 비중이 비슷할때 가장 잘 작동하지만 그런 균형있는 데이터를 다루기엔 현실적으로 쉽지않다. 따라서, 데이터가 심각하게 불균형(highly imbalanced)인 상황에서 어떤 문제가 있고, 어떻게 의사결정하여 문제를 해결했는지 정리하고자 한다. 해당 데이터는 kaggle: Credic Card Fraud Detection에서 다운로드 가능하다. 데이터는 2013년 9월 유럽에서 발생한 신용 카드 거래내역이다. 이 데이터는 이틀 동안 발생한 거래내역을 보여주며, 여기서 284,807건의 거래중 492건의 신용카드 거래가 사기로 판별됐다. 클래스가..

Data Science/머신러닝 2023.06.21
이전
1
다음
더보기
프로필사진

통계학을 전공한 데이터 분석가의 일상, IT, 공부한 내용을 기록하는 공간입니다.

  • 분류 전체보기 (96)
    • Data Engineering (18)
      • 책정리 (6)
      • 프로그래머스 study 11기 (6)
      • airflow (3)
      • 개념 (3)
    • Data Science (18)
      • 머신러닝 (13)
      • 딥러닝 (1)
      • Statistic (2)
      • NLP (2)
    • IT (5)
      • Linux (2)
      • mac os (1)
      • 네트워크 (1)
      • 용어 (1)
    • 프로그래밍 (38)
      • PySpark (15)
      • Python (17)
      • SQL (6)
    • 기타 (0)
      • 심수상응 (3)
      • 참고자료 (3)
      • marketing (2)
      • 자격증 (1)
      • 회고록 (4)
      • 일상 (2)
      • 영어공부 (2)
      • 경제 (0)

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Copyright © Kakao Corp. All rights reserved.

티스토리툴바