회사에서 모델링 관련 업무를 하다 보면 방향을 잃을 때가 있다. 결과를 내는데 급급하기보다는 모델링의 목적과 달성하고자 하는 요구사항이 뭔지? 그리고 어떻게 모델링 방향을 설정할지? 에 대한 고민이 선행돼야 한다.
학교에서 단순히 논문을 쓰고, 공부를 할 때와는 많이 달라 이 부분을 인지하는데까지 꽤 시간이 걸렸다. 여전히 훈련이 덜 된 상태라 잊지 않기 위해 해당 부분을 정리한다.
1. 연구용 모델링?
대학원에서 논문을 썼을 때 이야기다. 논문을 쓰고 졸업하려면 '모델을 구현하고 성능을 개선시킴'을 보여줘야지 라는 포인트에 맞춰 왜 모델링을 해야 하는지에 대한 고찰 없이 결과 내는데 집중을 했다. 변명하자면 잘 모르기도 했고, 산업에서 모델을 어떻게 활용하는지에 대한 경험부족?이라고 생각한다.
학교에서의 모델링 방향은 수식으로 해당 모델의 조건들을 증명하고, 손실함수를 변형 응용해서 성능을 개선시키며 새로운 모델을 개발하는 등 연구자가 되는데 초점이 맞춰져 있었다.(공대의 경우 다를 것으로 예상된다, 산업 관련 연구와 직접적으로 연결되어 연구하니?) 그렇기 때문에, 학부생이나 대학원생 입장에서 모델링에 대한 목적을 고민하지 않았다기보다는 모델링을 고민하는 방향이 달랐다는 표현이 맞다고 본다. 왜냐하면 학교에서는 그렇게 사고하고 적용했기 때문이다.
2. 과도기
학교딱지를 막 떼고 현업에 들어서면서 굉장히 당황스러운 경험을 많이 하게 된다. 나는 빅데이터 타이틀을 단 스타트업에서 근무를 하는데 복잡한 시스템, 생각보다 너무 큰 데이터, 데이터 팀 사수의 부재 등 주니어 때 겪기 좋을만한?? 다양한 경험을 하면서 방향을 잃는 게 일이었다.
왜 그렇게 혼란스러웠나 생각하니 대학원까지 합치면 약 십년가까이를 학교에서 학생, 연구자로서 역할을 하다가 비즈니스에 던져져 역할을 하려고 하니 훈련이 안되어 있어 방향을 잃었다는 결론이다. 이때까지 쌓아온 사고와는 다른 방식으로 고민하고 해결하는 능력이 필요하다고 느낀다.(연구자의 길을 걸었다면 덜 혼란스러웠을까?, 취업시장에서 회사입장은 학생 같은 지원자보다 직장인 같은 지원자를 뽑고 싶어 한다는 것과 같은 이치라고 생각한다.)
그 와중에 초반에 모델링 업무를 맡게 됐는데 성능이 좋은 모델을 가져갔더니 부장님께 왕창 깨져서 당황스러웠다. 성능이 좋은데 왜..? 좋은 거 아닌가..? 모델링이 뭐냐고 물으셨는데 그제야 부장이 말하고자 하는 바가 뭘까? 모델링을 왜 묻지? 모델링이 그러면 뭘까?라는 고민을 하게 됐다.
3. 모델링?
모델링이 뭔지에 대해서 정리해야지 하며 미루던 참에 내가 학생 때부터 구독하여 즐겨보던 데이터 선배님의 블로그에 모델링에 대해 너무 잘 정리한 글이 올라왔는데 읽어보니 주니어가 알고 가면 너무 좋을 내용이라 첨부한다.
https://blog.naver.com/hancury
우선, 모델링이란 설명변수 $$X_{1} X_{2},..., X {n}$$가 주어졌을 때 종속변수$$Y$$를 잘 예측하는 설명변수의 패턴을 찾는 것이다. 그렇다면 "잘" 예측한다는 게 무엇일까?
여기서 앞서 내가 간과했던 게 "잘"예측하는 모델 == "성능"이 좋은 모델이라고 생각했던 게 굉장히 학생스러웠던 실수였는데, 위에서 예측모델과 해석모델의 목적(본질) 차이에 대해 위에서 잘 설명해 주셨다.
- 예측모델: Y를 영원히 알 수 없거나 제 때 알 수 없다.
- 해석모델: Y 자체가 궁금한 게 아니라 Y와 X들 간의 관계 자체가 궁금하다.
내 사례에 대입해 보면 부장님은 나에게 해석가능한 모델을 만들고 설명해 보라는 상황에 나는 예측모델을 가지고 갔던 문제가 있었다. 그러니 내가 만든 모델이 무엇인지? 모델의 목적이 뭔지? 하고자 하는 게 뭔지? 물음표 폭탄을 받았던 것이다. 처음에는 말하고자 하는 바를 이해하지 못했는데 이제는 조금이나마 감을 잡아가고 있다. '좋은'모델이란 적재적소에 상황에 따라 필요한 모델이라는 것을.
어쨌든, 예측 모델의 목적은 Y를 모르지만 최대한 Y와 가장 비슷하거나, Y를 예측하는데 충분한 정보량을 가지는 X를 찾아 쓰는데 그 목적이 있다. '예측모델의 목적은 예측이다.'(Y와 X의 관계를 비선형 조합으로 설명하기 어려운 문제가 있지만, 왜? 잘 맞추는지에 대한 고려를 배제하는 게 맞는지 의문점은 남아있다.)
해석모델의 경우는 Y와 X의 관계에 대해 설명가능한 모델이므로 정확도에 집착하기보다는 최소의 설명변수로 최대의 설명력(설득가능성)을 높이는 게 중요하다. 그래서 복잡한 비선형 함수의 집합인 인공신경망 모델보다는 선형모형, 로지스틱 모형이 더 적합하다. 예를 들어, 추정한 계수를 바탕으로 X와 Y의 관계를 설명하는데 선형 회귀만큼 좋은 모델은 없다.(단순하면서 변수 간의 다중공선성 문제를 검증하고 해결하기도 좋고 설명하기도 좋다.)
결론적으로, 비즈니스에서 필요한 모델이 뭘까에 대한 고민은 모델링 업무를 하는 사람에겐 필수적이다. 나의 경우 현재 회사내부에서 데이터를 생성하고 판매하고 있는데 정확한 데이터를 생성하기 위해 회사내부의 예측모델이 필요할 것이고, 고객사를 위한 모델링 컨설팅을 할 때는 설명가능하고 전달하기 쉬운 해석 모델링이 필요하다는 생각이 든다. (물론 고객사 요청, 내부 상황 등 다양한 외부조건에 달라지겠지만.)
'기타 > 심수상응' 카테고리의 다른 글
성인이 되는 것은. (0) | 2023.12.11 |
---|