[ML] 모델의 성능, 어떻게 평가해야 하나?

분류 문제 (Logistic regression) 성능을 평가할 때 Confusion matrix를 이용할 수 있다.

Confusion matrix는 실제 데이터와 예측 데이터에 대한 분포를 표현한 matrix다.

TP, TN이 높아야 좋은 것

코드는 다음과 같다.

from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

성능 평가 지표

1. 정확도 (accuracy)

주의할 점 : 만약 데이터가 imbalance하다면 accuracy가 좋은 성능 평가 지표가 될 수 없다.

2. Recall (재현율)

전체 positive ( 혹은 negative ) 관측치 중에서 제대로 예측된 비중

특정 class가 얼마나 정확하게 예측됐는지 보여준다.

ex) 실제로 암인 사람들 중 암에 걸렸다고 예측된 사람들

recall = TP / TP + FN

3. 정밀도 (precision)

positive (혹은 negative)로 예측된 관측치 중 제대로 예측된 비중

도출된 결과가 얼마나 정확한지 보여준다.

ex) 암에 걸린 것으로 예측된 환자들 중 실제로 암에 걸린 사람들

***

4. F1 Score

The F1 Metrics attempts to combine Precision and Recall into a single value for comparison purposes.

May be used to gain a more balanced view of performance.

데이터가 imbalanced 해도 성능을 잘 평가할 수 있다.

F1 Score is harmonic mean(조화 평균) of recall and precision

모델의 성능을 평가할 때 accuracy만으로 설명하는 것은 부족하다.

https://sumniya.tistory.com/26

Ryu Han