오래 못 할 짓 하지 않기
[ 데이터 과학 ] 11. Memorization(2) 본문
Confusion Matrix에 대해 알아보자.
우리는 Precision과 Recall을 얻어서 분석할 수 있다.
● Precision : '긍정'으로 예측한 것 중에 '실제 긍정인 비율' ex) 스팸 메일
● Recall : '실제 긍정인 것'에서 '긍정으로 예측한 비율' ex)암 예측
해당 조건에서 Precision / Recall / Accuracy를 구해보자.
Accuracy : 15+75 / 15+75+10+5
= 90 / 110
만약 Threshold가 높아지면 어떻게 될까?
> 긍정으로 예측하는 것들이 줄어든다.
→ 웬만한 건 False로 처리함
→ Precision : 올라간다
Recall : 내려간다
만약 Threshold가 낮아지면 어떻게 될까?
→ Precision : 내려간다
Recall : 올라간다
Threshold에 따라 Confusion Matrix가 어떻게 되는지 생각해보자.
- ROC Curve
- AUC
Using continuous variable as input variable
이제는 True / False가 아닌 연속적인 값에 대해 예측 모델을 만들어보자
나이를 기준으로 처리한다고 생각해보자.
연속적인 값을 범주형으로 Cut을 사용해서 바꾸는 것이다.
Regression Sample
금액은 Continuous Value이다.
따라서 해당 데이터에 대해서는 Regression 과정을 거쳐야 한다.
안 아픈 사람이 많아서 보험비가 낮기 때문에 왼쪽에 치우쳐 있음
Regression을 하려면 정규분포 모양이어야 한다.
> 따라서 우리는 이를 정규분포 모양으로 바꾸기 위해 log를 씌운다.
우선 데이터를 가져오고, 8:2로 섞는다.
https://wrtn.ai/chat/u/663397a3208f03982f4f7dae/c/67f75b0b4a2d07316898bcd0?type=u
(출처)
한동대학교 김현정교수님 - 데이터과학
'4학년 > 데이터 과학 ( Data Science )' 카테고리의 다른 글
데이터 과학 중간 정리 (0) | 2025.04.20 |
---|---|
[ 데이터 과학 ] 12. Memorization(3) (0) | 2025.04.14 |
[ 데이터 과학 ] 10. Memorization (0) | 2025.04.03 |
[ 데이터 과학 ] 9. Missing Value / Outlier (0) | 2025.04.03 |
[ 데이터 과학 ] 8. Type Conversion (0) | 2025.03.31 |