빅데이터 2

분류 성능 평가 지표 : 불균형 데이터에는 어떤 평가 지표가 좋을까? - 오차행렬 완벽 정리

분류 성능 평가 지표 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1-Score ROC-AUC 이 평가 지표들은 이진 분류와 다중 분류에 모두 적용될 수 있다. 특히 이진 분류에서 더욱 강조되는 지표이다. 이제 이 평가 지표들에 대해 좀 더 상세하게 내용을 적어보고자 한다. 정확도 Accuracy 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이다. 이진 분류일 경우 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하긴 어렵다. 불균형한 레이블 값 분포의 데이터에서는 모델의 성능이 실제로 좋지 못하더라도 정확도가 높을 수 있다. ex ) 100개의 dataset에서 90개의 데이터 라벨이 0, 10..

간단하게 정리하는 Autoencoder

오토인코더에 대한 자세한 원리와 이해는 더 좋은 설명글이 구글에 있을것이라 생각하고! 간단하게 자료정리한것들만 적어보겠습니다. 사실 이 글로는 오토인코더에 대한 이해가 어렵겠지만 제가 노트정리 해두었던 내용들이라 기록용으로 올립니다. 먼저 autoencoder는 인코더와 디코더로 이루어져 있습니다. 인코더는 데이터를 받아 그 데이터의 주요 정보를 압축하는 역할을 하고 디코더는 그 정보들을 다시 원 데이터로 복원하는 역할을 합니다. 이때 인코더가 압축한 정보들을 모아둔 곳이 latent space라고 할 수 있죠. Autoencoder 인코더와 디코더를 통해 압축과 해제를 실행 encoder = 정보를 최대한 보존하도록 손실 압축을 수행 이때 데이터에 대한 중요한 정보만 압축하게 됨. 필요 없거나 뻔한 특..

반응형