데이터 과학 중간 정리

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

오래 못 할 짓 하지 않기

데이터 과학 중간 정리 본문

4학년/데이터 과학 ( Data Science )

데이터 과학 중간 정리

쫑알bot 2025. 4. 20. 15:47

728x90

Regression Analysis은

독립적인 변수 (최소 한 개) X에 따라 Y가 어떻게 변하는지 예측하는 것을 말한다.

[ #에 따른 @의 수치 ]

y = B0 + B1x ( + Error )

y = 기준값 + 기울기(증감값) + 에러

> B1은 기울기다.

Ordinary Least Square ( OLS )

[ 예 ]

1. 소득이 높아지면 집 평수가 높아질 것이다.

> 소득은 어떻게 할 거? 연봉 ? 자산 규모 ? 소득 분위 ?

Fit한지 측정하는 법

실제 y값 - 예측 y값 = Residual

- ESS : 평균으로 대충 때려맞추는 게 아니라, 이 정도로 정교해졌습니다.

- RSS = 아직 좀 더 정교해질 길이 남았습니다.

TSS = ESS + RSS

- TSS = (실제값 - 평균)^2

- ESS = (예측값 - 평균)^2 = TSS - RSS

- RSS = (실제값 - 예측값)^2

RSS 가 0일 때, 1일 때 어떻게 된 상황인지도 이해하기

우리의 목표는 RSS가 0이 되는 것

이거 구하는 방법 알아야 할 것 같다. 교수님이 강조하심

Matrix 사용법 : byrow

my rating은 2,5,5,5,3,2,5 임.

byrow 인자를 주지 않으면 내 정보가 아래 왼쪽과 같이 저장됨

byrow 가 있다면 오른쪽처럼 저장된다.

추가로 평균을 구하는 함수 xxxMeans를 사용할 땐, na 결측치를 무시하고 계산하는 옵션도 줄 수 있다.

name(dataframe)

dataframe에서 true인 값들의 Collum들만 return 해준다.

sep

'\t' : 탭

'^$' : 공백

aggregate

#aggregate함수는 괄호 안에 (얻고자 하는 값 ~ 기준, 내용이 포함된 df, 함수)를 사용

Merge

GDP_POP <- merge(GDP,POP,by = "Country", all = FALSE)

># merge함수를 이용, 공통된 열인 Country열을 이용해 합친다.

# APPLY

📌 apply( matrix 혹은 Dataframe , 1=가로로 적용/ 2=세로로 적용 , 적용시킬 function )

= apply(데이터,방향,function)

[ 예제 ]

Subset

subset(데이터 , 조건)

으로 하면 데이터에서 조건에 해당하는 데이터들이 추출된다.

Sample

sample( 샘플을 뽑을 데이터 , 개수 , 중복 허용 여부 ) 마지막 인자로 가중치도 줄 수 있음

샘플을 뽑을 곳을 Country로 하는 이유는 final을 넣으면 column 개수로 보기 떄문에

1. 이름만 샘플로 뽑음

2. 그 이름들로 데이터들을 찾음

quantile

q <- quantile(final$GDP, probs = c(0,0.25,0.5,0.75,1))

cut

gather

: 여러 컬럼으로 흩뿌려져 있는 것들을

하나의 컬럼의 Value로 바꾸는 명령어

weather_df<-gather(weather_df,key ='dayOfMonth' ,value = 'value',colnames(weather_df)[4:length(weather_df)])

spread

: 하나의 컬럼에 있는 value들이 value가 아닌 컬럼으로 바뀌어야 할 때 펼쳐주는 역할을 한다.

measure을 보면, 저 하나의 값들이 하나의 컬럼으로 되어야 한다.

'4학년 > 데이터 과학 ( Data Science )' 카테고리의 다른 글

[ 데이터 과학 ] 13. K-Nearest Neighbors (KNN) (0)	2025.05.01
[ 데이터 과학 ] 12. Memorization(4) - Multi Variable Classification (0)	2025.04.28
[ 데이터 과학 ] 12. Memorization(3) (0)	2025.04.14
[ 데이터 과학 ] 11. Memorization(2) (0)	2025.04.10
[ 데이터 과학 ] 10. Memorization (0)	2025.04.03

'4학년/데이터 과학 ( Data Science )' Related Articles

오래 못 할 짓 하지 않기

데이터 과학 중간 정리 본문

데이터 과학 중간 정리

y = 기준값 + 기울기(증감값) + 에러

Ordinary Least Square ( OLS )

Fit한지 측정하는 법

- ESS : 평균으로 대충 때려맞추는 게 아니라, 이 정도로 정교해졌습니다.

- RSS = 아직 좀 더 정교해질 길이 남았습니다.

이거 구하는 방법 알아야 할 것 같다. 교수님이 강조하심

Matrix 사용법 : byrow

name(dataframe)

sep

aggregate

Merge

GDP_POP <- merge(GDP,POP,by = "Country", all = FALSE)

# APPLY

📌 apply( matrix 혹은 Dataframe , 1=가로로 적용/ 2=세로로 적용 , 적용시킬 function )

Subset

subset(데이터 , 조건)

Sample

quantile

cut

gather

spread

'4학년 > 데이터 과학 ( Data Science )' 카테고리의 다른 글

티스토리툴바