Data Science/머신러닝 13

[머신러닝] Random Forest, XGBoost, LightGBM 비교

1.Random Forest - 알고리즘 여러 개의 의사결정나무(Decision Tree) 모델을 배깅(bagging) 앙상블한 모델 bagging : training data로부터 랜덤하게 추출하여 동일한 사이즈의 데이터셋을 여러개 만들어 독립적인 트리를 구성 각 트리마다 변수들이 랜덤하게 사용(subsampling) > 개별 트리들의 상관성을 줄여 일반화 성능 확보 - 장점 일반화 및 성능 우수 파라미터 조정 쉬움 데이터 scaling 불필요 - 단점 샘플을 계속 추출하다 보면 비슷한 데이터가 만들어질 확률이 증가 해석이 어려움(앙상블 모형의 특징) 변수가 너무 적은 경우 랜덤성이 부족하여 성능 떨어짐 훈련시 메모리 소모 큼 2.XGBoost - 알고리즘 여러 개의 의사결정나무(Decision Tre..

[머신러닝] Kernel/Kernel trick(커널, 커널트릭)

0.개요 앞서, Support Vector Machine은 다음과 같은 제약식이 있는 최적화 문제를 라그랑주 문제로 풀었다. $$\text {max}\quad L_D(\alpha_i)=\sum^n_{i=1}\alpha_i - \frac {1}{2}\sum^n_{i=1}\sum^n_{j=1}\alpha_{i}\alpha_{j} y_i y_j x^{T}_ix_j$$ $$\text {subject to} \quad \sum^n_{i=1}\alpha_i y_i = 0, \ 0 \leq \alpha_i \leq C, \quad i = 1, \dots , n $$ 그러나 분류모델로 선형 SVM을 가정했을 때 soft margin을 사용해 어느 정도 오분류를 허용하더라도 다음과 같은 input space에서 데이터를..

[머신러닝]Support Vector Machine(SVM)에 대해 알아보자

0.History 서포트 벡터 머신(support vector machine; svm) 알고리즘은 Vapnik, Chervonenkis(1963)에 의해 고안됐다. 1992년 커널 트릭(kernel trick) 방법론을 적용해 마진(margin)을 최대화하는 초평면(hyperplane)을 찾는 비선형 분류기로 확장했으며, 1995년에는 소프트 마진(sorft margin) 개념을 도입해 svm의 분류기의 성능을 높였다. 1.SVM - 초평면(hyperplane), 마진(margin) 우선, 여기서 svm은 지도학습 분류기로 이진 분류만 고려하기로 한다. 주어진 훈련데이터(training observation)를 이용하여 마진(margin)을 최대화하는 초평면(hyperplane)을 찾는 분류기이다. $$..