Data Science/머신러닝

엘라스틱 넷 패널티를 활용한 서포트 벡터 머신의 변수선택법

히또아빠 2023. 7. 10. 13:39

내가 쓴 논문 정리

석사 졸업논문으로 서포트 벡터 머신의 변수선택 방법론에 대해 제시하고 해당 문제를 최적화 문제로 풀어가는 논문이다. 기존의 방법론에 엘라스틱 넷 패널티를 적용해 최적화 알고리즘으로 풀어가는 방식인데 오랜만에 보니까 기억도 안난다.... 어렵다.. 


서론

  • 기존의 binary svm은 고차원(high dimensional) data, noise가 많은 경우 성능이 떨어지는 문제와 주요 변수의 판별이 어려운 단점이 있음. 이러한 문제를 해결하기 위해 panelty 항을 이용하여 성능을 개선된 svm이 나오게 됨. ex) L1 svm, doubly svm
  • linear 문제에서는 이러한 panelty를 직접 적용하는 방법이 옳지만 nonlinear 문제에서는 원변수 선택이 아니라 커널의 기저 함수가 선택되는 문제가 있음. 따라서, nonlinear 에서의 변수선택법인 COSSO (component selection ans spline operator)가 제안됨.
  • 이 방법은 panelty 항을 이용해 직접적으로 원변수를 선택하는 것이 아닌 커널을 이용해 함수추정의 공간으로 매핑해 변수의 주성분을 선택하는 방법으로 LASSO 타입의 벌점항을 이용해 비선형 문제에서 변수선택을 하도록 함.
  • 그러나 LASSO 타입의 벌점항은 변수간 상관성이 있거나 고차원인 경우에 하나만 선택하고 예측 성능이 떨어지는 단점이 있음. 이 문제를 해결하기 위해 회귀 문제에서 적용된 RIDGE와 LASSO의 선형 결합 형태인 Elastic net 벌점항이 제안 됐음.
  • 따라서, LASSO의 한계가 있는 시나리오에서 Elastic net 벌점항을 적용한 EL-COSSO-SVM 모형을 제안하고 알고리즘을 풀어 COSSO 와 비교하는 아이디어로 논문을 작성함.

본론

  • 제안된 모형의 알고리즘은 2step(c-step, theta-step)로 구성됨.
  • COSSO-SVM은 2차 계획법(quadratic programming)과 선형 계획법(linear programming)을 순차적으로 풀어가는 반면에 EL-COSSO-SVM은 연속된 2차 계획법으로 풀어가게 됨. 왜냐하면 elastic net 벌점항에 의해 기존의 선형 문제로 풀던 알고리즘을 2차 계획법으로 풀기 때문에
  • 알고리즘을 푸는 과정에 제약식이 있는 문제를 풀기 때문에 라그랑주 승수법(lagrange multiplier), KKT 조건 등 최적화 개념들이 이용됨.
  • COSSO-SVM과 Elastic net 벌점항을 적용한 EL-COSSO-SVM의 변수 선택과 성능 비교를 위해 모의실험(A,B,C), 실제 데이터 분석(UCI)에서 분석함.

결론

  • 데이터 분석 결과 상관성이 있는 데이터에서 EL-COSSO-SVM이 COSSO-SVM의 성능을 개선 시키고 변수 선택에 월등함을 보여줬음.
  • 대용량 데이터에서는 연산의 복잡성 때문에 한계가 있어보여 PEGASUS와 같은 알고리즘을 적용하는 것이 좋아 보임.
  • 그리고 multiclass로 확장을 위해 simplex기반의 loss적용도 추후 확장 연구로 고려할 수 있음.

참고

https://github.com/hwanghoseok/elssvm

 

GitHub - hwanghoseok/elssvm: Variable selection for nonlinear support vector machines via elastic net penalty

Variable selection for nonlinear support vector machines via elastic net penalty - GitHub - hwanghoseok/elssvm: Variable selection for nonlinear support vector machines via elastic net penalty

github.com

https://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE11205193 

 

엘라스틱 넷 벌점항을 이용한 비선형 지지벡터기계의 변수선택 | DBpia

황호석, 최호식, 박창이 | 한국데이터정보과학회지 | 2023.01

www.dbpia.co.kr

 

300x250
반응형