Machine Learning 9

[ML] Regularization : Lasso(L1), Ridge(L2)

Regularization 정규화 선형 회귀에서 우리는 Error를 줄이기 위해 SSE(Sum of Square Error)를 minimize 했다. $minimize SSE = \Sigma_{i=1}^{n}(y_i - \hat{y_i})^2 = \Sigma_{i=1}^{n}(y_i - w_0 -w_1x_i)^2$ 이러한 최적화 방법으로 우리는 주어진 데이터를 가장 잘 fitting 할 수 있는 모델을 학습하게 된다. 이후 새로 들어온 데이터가 우리가 가정한 추세선과는 멀리 떨어져 있다면 새로운 데이터에 대해 error가 매우 커질 것이다. 이런 문제는 우리가 만든 모델이 새로운 데이터를 잘 예측하지 못하는 variance Error(Large Coefficient)라고 할 수 있다. 즉, 주어진 데이터..

[ML] 앙상블(Ensemble) - Voting, Bagging, Boosting

기존의 단일 모델은 늘 bias-variance trade off의 문제를 벗어나지 못했다. 모델의 정확도를 올리고자 복잡한 모델을 만들면 과대적합의 우려가 생기고 이를 해결하려 모델을 단순하게 만들면 결국은 또 과소적합의 문제가 생기는 해결하기 어려운 문제점에 봉착한다. 이 말을 *bias와 *variance의 관점에서 다시 말하자면 모델을 과대적합하면 variance가 커지고 bias가 작아지며 모델을 과소적합하면 variance가 작아지고 bias가 커진다. (이게 왜 문제가 되는지는 bias-variance를 주제로 포스팅을 해보려고 한다.) 우리는 이러한 트레이드오프 문제에서 모델이 가장 좋은 정확도를 가질 수 있는 분산과 편향을 찾고 싶어 한다. 따라서 이러한 문제점을 해결하고자 앙상블 방법이..

[ML] Logistic Function - logit 변환

해당 포스트는 로지스틱 함수를 구하는 방법을 적어보려고 한다. 로지스틱 회귀분석에 대한 방법이 적혀있는 글은 아니다. 단지 기존의 회귀 식이 어떻게 로지스틱 회귀식으로 변형이 되는지 수식과 함께 천천히 풀어보려고 한다. Sigmoid Function 특징 Bounded : 0과 1 사이의 유한한 구간을 가짐 Differentiable : 미분 가능 Real Function : 실제 함수 Defined for all real inputs : 모든 Input에 정의 With positive derivative : 단조 증가 시그모이드 함수는 S자형 곡선을 갖는 수학 함수이며 로지스틱, 탄젠트 함수 등을 포함한다. 모든 점에서 음이 아닌 미분 값을 가지며 단 하나의 변곡점을 포함한다. 로지스틱 함수는 위와 같..

Maximum a Posterior Estimation (MAP)

해당 글은 [Edwith : 인공지능 및 기계학습 개론]의 문일철 교수님 강의를 참고한 내용입니다. CHAPTER 1. Motivations and Basics - 1.3 MAP 이전글 : 2022.03.14 - [Machine Learning/Statistics] - Maximum Likelihood Estimation(MLE)를 간단한 예시를 활용해 이해하기 : 수식 정리 Maximum Likelihood Estimation(MLE)를 간단한 예시를 활용해 이해하기 : 수식 정리 해당 글은 [Edwith : 인공지능 및 기계학습 개론] 문일철 교수님의 강의를 정리한 내용입니다. CHAPTER 1. Motivations and Basics - 1.2 MLE Thumbtack Question 압정을 던져..

Maximum Likelihood Estimation (MLE) - 간단한 예시를 활용해 수식 정리

해당 글은 [Edwith : 인공지능 및 기계학습 개론] 문일철 교수님의 강의를 정리한 내용입니다. CHAPTER 1. Motivations and Basics - 1.2 MLE Thumbtack Question 압정을 던져서 앞, 뒤 확률을 구할 때 구조적으로 50%, 50% 확률이라고 말하긴 어렵다. (동전은 앞뒷면이 똑같이 평평해 각 50%의 확률을 갖는다고 말할 수 있지만 압정의 모양을 생각해보면 쉽게 이해가 갈 것이다) 따라서 압정의 앞, 뒷면의 확률을 구하기 위해 여러 번 던져보자. 압정을 5번 던졌고 그중 3번이 앞면, 2번이 뒷면이 나왔다. 이때 우리는 앞면이 나올 확률이 3/5, 뒷면이 나올 확률이 2/5라고 말할 수 있을까? 압정 던지기 실험 시행 횟수 : 5번 앞면이 나온 횟수 : 3..

[Anomaly Detection] Isolation Forest 알고리즘 정리 및 anomaly score구하기

Anomaly Detection Isolation Forest 오늘은 Anomaly Detection의 한 방법인 Isolation Forest 알고리즘에 대해 설명해보려고 한다. Forest는 이미 우리에게 익숙한 앙상블의 한 기법이다. 기존의 트리는 entropy나 gini impurity를 사용해 information gain 구해 트리를 분기하는 방식이지만 isolation forest는 조금 다른 트리 분기 방식을 사용하고 있다. Isolation Forest는 알고리즘 이름 그대로 아주 직관적인 방법이다. 각 데이터 포인트들이 몇번만에 데이터가 고립되는지에 따라 이상치를 판별한다. 위의 그림을 보면 \(x_i\)는 비교적 normal 데이터이고 \(x_o\)는 abnormal 데이터로 보여진다..

[Anomaly Detection] Local Outlier Factor(LOF) 알고리즘 파헤치기

Anomaly Detecton Local Outlier Factor(LOF) Algorithm 오늘은 밀도 기반의 Local Outlier Factor 알고리즘에 대한 설명을 해보려고한다. 이 알고리즘의 핵심은 local density를 고려하는 것이다. 밑에 그림으로 쉽게 예시를 들어보려고 한다. O1, O2의 인스턴스가 있다. O1의 인스턴스는 직관적으로도 확실하게 outlier로 보인다. 그렇다면 O2는 어떨까? 그림에서 핑크색으로 표시한 C1그룹간의 객체 사이의 거리와 O2와 C2그룹의 객체 사이의 거리가 크게 달라보이진 않는다. 하지만 C1그룹의 밀도는 낮고 C2그룹의 밀도는 높다. 즉, 이웃 그룹의 밀도를 고려하여 객체의 이상치를 판별하고자 하는 것이 이 알고리즘의 의도라고 할 수 있다. Lo..

분류 성능 평가 지표 : 불균형 데이터에는 어떤 평가 지표가 좋을까? - 오차행렬 완벽 정리

분류 성능 평가 지표 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1-Score ROC-AUC 이 평가 지표들은 이진 분류와 다중 분류에 모두 적용될 수 있다. 특히 이진 분류에서 더욱 강조되는 지표이다. 이제 이 평가 지표들에 대해 좀 더 상세하게 내용을 적어보고자 한다. 정확도 Accuracy 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이다. 이진 분류일 경우 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하긴 어렵다. 불균형한 레이블 값 분포의 데이터에서는 모델의 성능이 실제로 좋지 못하더라도 정확도가 높을 수 있다. ex ) 100개의 dataset에서 90개의 데이터 라벨이 0, 10..

Prophet

Prophet : Trend, Seasonality, Holiday y(t)=g(t)+s(t)+h(t)+ϵi g(t) : piecewise linear or logistic growth curve for modelling non-periodic changes in time series 시계열의 비 주기적 변화를 모델링하기 위한 부분적 선형 또는 로지스틱 곡선 s(t) : periodic changes (e.g. weekly/yearly seasonality) 주기적 변화 h(t) : effects of holidays (user provided) with irregular schedules 일정이 불규칙한 휴가들 ϵi : error term accounts for any unusual changes no..

반응형