오래 못 할 짓 하지 않기

데이터 과학 중간 정리 본문

4학년/데이터 과학 ( Data Science )

데이터 과학 중간 정리

쫑알bot 2025. 4. 20. 15:47
728x90

 

Regression Analysis

독립적인 변수 (최소 한 개) X에 따라 Y가 어떻게 변하는지 예측하는 것을 말한다.

 

 

[ #에 따른 @의 수치 ]

 

y = B0 + B1x ( + Error )

y = 기준값 + 기울기(증감값) + 에러

> B1은 기울기다.

 


  Ordinary Least Square ( OLS )

 

 

 

[ 예 ]

 

1. 소득이 높아지면 집 평수가 높아질 것이다.

  >  소득은 어떻게 할 거? 연봉 ? 자산 규모 ? 소득 분위 ?

 

 

 

 

Fit한지 측정하는 법

실제 y값 - 예측 y값 = Residual 

 

- ESS : 평균으로 대충 때려맞추는 게 아니라, 이 정도로 정교해졌습니다.

- RSS = 아직 좀 더 정교해질 길이 남았습니다.

 

TSS = ESS + RSS

 

- TSS = (실제값 - 평균)^2

- ESS = (예측값 - 평균)^2 = TSS - RSS

- RSS = (실제값 - 예측값)^2

 

RSS 가 0일 때, 1일 때 어떻게 된 상황인지도 이해하기

우리의 목표는 RSS가 0이 되는 것 

 

이거 구하는 방법 알아야 할 것 같다. 교수님이 강조하심

 

 


Matrix 사용법 : byrow

my rating은 2,5,5,5,3,2,5 임.

byrow 인자를 주지 않으면 내 정보가 아래 왼쪽과 같이 저장됨

byrow 가 있다면 오른쪽처럼 저장된다. 

 

 

추가로 평균을 구하는 함수 xxxMeans를 사용할 땐, na 결측치를 무시하고 계산하는 옵션도 줄 수 있다.

 


 

name(dataframe)

 

dataframe에서 true인 값들의 Collum들만 return 해준다.

 

 

 


sep

 

'\t' : 탭

'^$' : 공백

 

 


 

 

aggregate

#aggregate함수는 괄호 안에 (얻고자 하는 값 ~ 기준, 내용이 포함된 df, 함수)를 사용

 


Merge

 

GDP_POP <- merge(GDP,POP,by = "Country", all = FALSE)

># merge함수를 이용, 공통된 열인 Country열을 이용해 합친다.

 


# APPLY

📌 apply( matrix 혹은 Dataframe , 1=가로로 적용/ 2=세로로 적용 , 적용시킬 function )

= apply(데이터,방향,function)

 

[ 예제 ]

 


Subset

 

subset(데이터 , 조건)

으로 하면 데이터에서 조건에 해당하는 데이터들이 추출된다.

 


Sample

sample( 샘플을 뽑을 데이터 , 개수 , 중복 허용 여부 ) 마지막 인자로 가중치도 줄 수 있음

 

샘플을 뽑을 곳을 Country로 하는 이유는 final을 넣으면 column 개수로 보기 떄문에

 

1. 이름만 샘플로 뽑음

2. 그 이름들로 데이터들을 찾음

 

 

 


quantile

q <- quantile(final$GDP, probs = c(0,0.25,0.5,0.75,1))

 

 

 


cut

 




gather

: 여러 컬럼으로 흩뿌려져 있는 것들을 

 하나의 컬럼의 Value로 바꾸는 명령어

 

weather_df<-gather(weather_df,key ='dayOfMonth' ,value = 'value',colnames(weather_df)[4:length(weather_df)])

 

 

 


spread

: 하나의 컬럼에 있는 value들이 value가 아닌 컬럼으로 바뀌어야 할 때 펼쳐주는 역할을 한다.

 

measure을 보면, 저 하나의 값들이 하나의 컬럼으로 되어야 한다.