Machine Learning/Algorithm 4

[ML] 앙상블(Ensemble) - Voting, Bagging, Boosting

기존의 단일 모델은 늘 bias-variance trade off의 문제를 벗어나지 못했다. 모델의 정확도를 올리고자 복잡한 모델을 만들면 과대적합의 우려가 생기고 이를 해결하려 모델을 단순하게 만들면 결국은 또 과소적합의 문제가 생기는 해결하기 어려운 문제점에 봉착한다. 이 말을 *bias와 *variance의 관점에서 다시 말하자면 모델을 과대적합하면 variance가 커지고 bias가 작아지며 모델을 과소적합하면 variance가 작아지고 bias가 커진다. (이게 왜 문제가 되는지는 bias-variance를 주제로 포스팅을 해보려고 한다.) 우리는 이러한 트레이드오프 문제에서 모델이 가장 좋은 정확도를 가질 수 있는 분산과 편향을 찾고 싶어 한다. 따라서 이러한 문제점을 해결하고자 앙상블 방법이..

[Anomaly Detection] Isolation Forest 알고리즘 정리 및 anomaly score구하기

Anomaly Detection Isolation Forest 오늘은 Anomaly Detection의 한 방법인 Isolation Forest 알고리즘에 대해 설명해보려고 한다. Forest는 이미 우리에게 익숙한 앙상블의 한 기법이다. 기존의 트리는 entropy나 gini impurity를 사용해 information gain 구해 트리를 분기하는 방식이지만 isolation forest는 조금 다른 트리 분기 방식을 사용하고 있다. Isolation Forest는 알고리즘 이름 그대로 아주 직관적인 방법이다. 각 데이터 포인트들이 몇번만에 데이터가 고립되는지에 따라 이상치를 판별한다. 위의 그림을 보면 \(x_i\)는 비교적 normal 데이터이고 \(x_o\)는 abnormal 데이터로 보여진다..

[Anomaly Detection] Local Outlier Factor(LOF) 알고리즘 파헤치기

Anomaly Detecton Local Outlier Factor(LOF) Algorithm 오늘은 밀도 기반의 Local Outlier Factor 알고리즘에 대한 설명을 해보려고한다. 이 알고리즘의 핵심은 local density를 고려하는 것이다. 밑에 그림으로 쉽게 예시를 들어보려고 한다. O1, O2의 인스턴스가 있다. O1의 인스턴스는 직관적으로도 확실하게 outlier로 보인다. 그렇다면 O2는 어떨까? 그림에서 핑크색으로 표시한 C1그룹간의 객체 사이의 거리와 O2와 C2그룹의 객체 사이의 거리가 크게 달라보이진 않는다. 하지만 C1그룹의 밀도는 낮고 C2그룹의 밀도는 높다. 즉, 이웃 그룹의 밀도를 고려하여 객체의 이상치를 판별하고자 하는 것이 이 알고리즘의 의도라고 할 수 있다. Lo..

Prophet

Prophet : Trend, Seasonality, Holiday y(t)=g(t)+s(t)+h(t)+ϵi g(t) : piecewise linear or logistic growth curve for modelling non-periodic changes in time series 시계열의 비 주기적 변화를 모델링하기 위한 부분적 선형 또는 로지스틱 곡선 s(t) : periodic changes (e.g. weekly/yearly seasonality) 주기적 변화 h(t) : effects of holidays (user provided) with irregular schedules 일정이 불규칙한 휴가들 ϵi : error term accounts for any unusual changes no..

반응형