목록2025/04 (7)
오래 못 할 짓 하지 않기
보호되어 있는 글입니다.

- Decision- K - Nearest Neighbor- Naive Bayes Decision Decision Tree 를 통해 선택을 하는 것이다.각각의 조건에 대해 Pass되어 더 이상 뻗어나가지 못하는 Leaf Node들에 대해서 분석을 한다. - 조건을 내는 노드 : Decision Nodes- 선택에 대한 노드 : Leaf Nodes 대출 신청 시스템을 봤을 때는 위와 같은 인자들을 기반으로 처리를 다.따라서, 나의 대출 신청이 승인되었는지 어떤 원인으로 거절됐는지도 확실하게 알 수 있다. 장점: 투명하고 해석이 쉽다.단점 : 너무 단순화 되어있다. / 반대로 복잡도가 너무 높아지는 경우도 있다. 엔트로피 ↑ 일 때, 이질성이 ↑ 엔트로피 ↓ 일 때, 이질성이 ↓ ( 동질성이..

Regression Analysis은독립적인 변수 (최소 한 개) X에 따라 Y가 어떻게 변하는지 예측하는 것을 말한다. [ #에 따른 @의 수치 ] y = B0 + B1x ( + Error )y = 기준값 + 기울기(증감값) + 에러> B1은 기울기다. Ordinary Least Square ( OLS ) [ 예 ] 1. 소득이 높아지면 집 평수가 높아질 것이다. > 소득은 어떻게 할 거? 연봉 ? 자산 규모 ? 소득 분위 ? Fit한지 측정하는 법실제 y값 - 예측 y값 = Residual - ESS : 평균으로 대충 때려맞추는 게 아니라, 이 정도로 정교해졌습니다.- RSS = 아직 좀 더 정교해질 길이 남았습니다. TSS = ESS + RSS - TSS = (실제값 - 평균)^..

보험비와 흡연 여부의 관계를 보기 위해 모델을 만들고 있다.(log 다 씌움) 근데 예측값과 실제값에 대한 차이가 있다.이를 Error라고 한다면위와 같다. 근데 이걸 다 더하자니 에러는 많은데 Error가 음수인 것도 있고, 양수인 것도 있다.따라서 각 Error의 제곱을 한 뒤에 더한다. 그 결과에 루트를 씌우면 아래와 같다. 우리가 모델을 만들어서 구한 RMSE_test는 0.29 ▼ 모델을 만들지 않고 그냥 구한 것들 ▼ train의 표준편차는 0.39...test의 표준편차도 0.39... 따라서 우리 모델이 Error 값이 더 작으므로 더 성능이 좋다 (Fit하다) R^2 : 우리의 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표 1 : 예측 모델 성능 굿 = 에러 얼마 없음0 : 그..

Confusion Matrix에 대해 알아보자. 우리는 Precision과 Recall을 얻어서 분석할 수 있다. ● Precision : '긍정'으로 예측한 것 중에 '실제 긍정인 비율' ex) 스팸 메일 ● Recall : '실제 긍정인 것'에서 '긍정으로 예측한 비율' ex)암 예측 해당 조건에서 Precision / Recall / Accuracy를 구해보자. Accuracy : 15+75 / 15+75+10+5 = 90 / 110 만약 Threshold가 높아지면 어떻게 될까?> 긍정으로 예측하는 것들이 줄어든다. → 웬만한 건 False로 처리함→ Precision : 올라간다 Recall : 내려간다 만약 Th..

1. Classfication : 특정 사건에 대해서, 정해진 범주로 나누어 예측하는 작업 ex) 2. Regression : 범위 안에서 무한한(연속적인) 값을 가질 수 있는 데이터들에 대한 예측 ex) Memorization Method 데이터를 기억 / 특정 패턴을 학습하는 방법 > 해당 데이터나 특정 패턴을 학습하기 위해 관련있는 변수의 개수를 정해야한다. - Single Variable : 하나의 독립 변수와 하나의 종속 변수 간의 관계 분석 ---> 해석이 쉬움, 간단함 / 정확성 떨어짐- Multi Variable : 두 개 이상의 독립 변수를 사용하여 종속 변수 간의 관계 분석 --> 정확한 예측, 변수 간 상호효과 분석 가능 / ㅐ해석 어려움 ex) 연봉 - # 에서 관계가 있는 ..

Missing Value에 대해서 어떻게 처리하는가? colSums로 각 열에 na가 몇 개 있는지도 볼 수 있고summary로 더 자세히 볼 수도 있긴 하다. - 해당 행(Row)에 missing Value가 있는지 확인하는 것- omit : 특정 data frame에 na를 없앨 수도 있다. complete 로 T,F,T,F가 나왔으니까각 행의 1,3열만 출력시킨 것이다. Outliers and Obvuious ErrorsOutlier : (다른 데이터들에 비해) 극단적으로 튀는 값 [ 원인 ]1) 실제 측정 결과임 (살려야 함)2) 측정 단위의 다양성 (살려야 함)3) 실험상 오류4) 데이터 엔트리 오류 ex)c(rnorm( 샘플 수 , 평균 , 표준편차) 강제로 넣을 값들 ) 수업을 듣는 ..