모델링 2

주니어 분석가가 바라보는 모델링(modeling)이란?

회사에서 모델링 관련 업무를 하다 보면 방향을 잃을 때가 있다. 결과를 내는데 급급하기보다는 모델링의 목적과 달성하고자 하는 요구사항이 뭔지? 그리고 어떻게 모델링 방향을 설정할지? 에 대한 고민이 선행돼야 한다. 학교에서 단순히 논문을 쓰고, 공부를 할 때와는 많이 달라 이 부분을 인지하는데까지 꽤 시간이 걸렸다. 여전히 훈련이 덜 된 상태라 잊지 않기 위해 해당 부분을 정리한다. 1. 연구용 모델링? 대학원에서 논문을 썼을 때 이야기다. 논문을 쓰고 졸업하려면 '모델을 구현하고 성능을 개선시킴'을 보여줘야지 라는 포인트에 맞춰 왜 모델링을 해야 하는지에 대한 고찰 없이 결과 내는데 집중을 했다. 변명하자면 잘 모르기도 했고, 산업에서 모델을 어떻게 활용하는지에 대한 경험부족?이라고 생각한다. 학교에서..

기타/심수상응 2023.12.26

[PySpark] 신용카드 사기거래 탐지 모델링(3) - 기본모델링

item 우선, 회사에서 데이터 모델링 작업을 하다가 라벨이 심각하게 불균등하고, 게다가 데이터 정보량도 거의 없어 모델링이 필요한가? rule 기반으로 분류 작업을 하면 안될까??? 라는 고민을 하다가 현재 데이터에서 주성분 몇개 빼고 정보량이 없는 상태에서 모델간의 성능 비교를 해보자는 취지로 진행하였다. 그냥 주성분 전부 다써서 기본 로지스틱 모델만 돌려도 성능이 꽤나오는 깔끔한 데이터니 해보실분들은 따로 해보길 권한다. 1. ML용 Input 데이터 구성 우선, Pyspark ML을 이용하기 위해서는 vectorassembler을 이용해 머신러닝 알고리즘용 featurevector를 구성한다. feature가 dense vector 또는 sparse vector로 구성되는데 리소스에 따라 효율이 ..