오래 못 할 짓 하지 않기
데이터 과학 중간 정리 본문
Regression Analysis은
독립적인 변수 (최소 한 개) X에 따라 Y가 어떻게 변하는지 예측하는 것을 말한다.
[ #에 따른 @의 수치 ]
y = B0 + B1x ( + Error )
y = 기준값 + 기울기(증감값) + 에러
> B1은 기울기다.
Ordinary Least Square ( OLS )
[ 예 ]
1. 소득이 높아지면 집 평수가 높아질 것이다.
> 소득은 어떻게 할 거? 연봉 ? 자산 규모 ? 소득 분위 ?
Fit한지 측정하는 법
실제 y값 - 예측 y값 = Residual
- ESS : 평균으로 대충 때려맞추는 게 아니라, 이 정도로 정교해졌습니다.
- RSS = 아직 좀 더 정교해질 길이 남았습니다.
TSS = ESS + RSS
- TSS = (실제값 - 평균)^2
- ESS = (예측값 - 평균)^2 = TSS - RSS
- RSS = (실제값 - 예측값)^2
RSS 가 0일 때, 1일 때 어떻게 된 상황인지도 이해하기
우리의 목표는 RSS가 0이 되는 것
이거 구하는 방법 알아야 할 것 같다. 교수님이 강조하심
Matrix 사용법 : byrow
my rating은 2,5,5,5,3,2,5 임.
byrow 인자를 주지 않으면 내 정보가 아래 왼쪽과 같이 저장됨
byrow 가 있다면 오른쪽처럼 저장된다.
추가로 평균을 구하는 함수 xxxMeans를 사용할 땐, na 결측치를 무시하고 계산하는 옵션도 줄 수 있다.
name(dataframe)
dataframe에서 true인 값들의 Collum들만 return 해준다.
sep
'\t' : 탭
'^$' : 공백
aggregate
#aggregate함수는 괄호 안에 (얻고자 하는 값 ~ 기준, 내용이 포함된 df, 함수)를 사용
Merge
GDP_POP <- merge(GDP,POP,by = "Country", all = FALSE)
># merge함수를 이용, 공통된 열인 Country열을 이용해 합친다.
# APPLY
📌 apply( matrix 혹은 Dataframe , 1=가로로 적용/ 2=세로로 적용 , 적용시킬 function )
= apply(데이터,방향,function)
[ 예제 ]
Subset
subset(데이터 , 조건)
으로 하면 데이터에서 조건에 해당하는 데이터들이 추출된다.
Sample
sample( 샘플을 뽑을 데이터 , 개수 , 중복 허용 여부 ) 마지막 인자로 가중치도 줄 수 있음
샘플을 뽑을 곳을 Country로 하는 이유는 final을 넣으면 column 개수로 보기 떄문에
1. 이름만 샘플로 뽑음
2. 그 이름들로 데이터들을 찾음
quantile
q <- quantile(final$GDP, probs = c(0,0.25,0.5,0.75,1))
cut
gather
: 여러 컬럼으로 흩뿌려져 있는 것들을
하나의 컬럼의 Value로 바꾸는 명령어
weather_df<-gather(weather_df,key ='dayOfMonth' ,value = 'value',colnames(weather_df)[4:length(weather_df)])
spread
: 하나의 컬럼에 있는 value들이 value가 아닌 컬럼으로 바뀌어야 할 때 펼쳐주는 역할을 한다.
measure을 보면, 저 하나의 값들이 하나의 컬럼으로 되어야 한다.
'4학년 > 데이터 과학 ( Data Science )' 카테고리의 다른 글
[ 데이터 과학 ] 13. K-Nearest Neighbors (KNN) (0) | 2025.05.01 |
---|---|
[ 데이터 과학 ] 12. Memorization(4) - Multi Variable Classification (0) | 2025.04.28 |
[ 데이터 과학 ] 12. Memorization(3) (0) | 2025.04.14 |
[ 데이터 과학 ] 11. Memorization(2) (0) | 2025.04.10 |
[ 데이터 과학 ] 10. Memorization (0) | 2025.04.03 |