4학년/데이터 과학 ( Data Science )

[ 데이터 과학 ] 9. Missing Value / Outlier

쫑알bot 2025. 4. 3. 15:36
728x90

Missing Value에 대해서 어떻게 처리하는가?

 

colSums로 각 열에 na가 몇 개 있는지도 볼 수 있고

summary로 더 자세히 볼 수도 있긴 하다.

 

 

- 해당 행(Row)에 missing Value가 있는지 확인하는 것

- omit : 특정 data frame에 na를 없앨 수도 있다.

 

complete 로 T,F,T,F가 나왔으니까

각 행의 1,3열만 출력시킨 것이다.

 


Outliers and Obvuious Errors

Outlier : (다른 데이터들에 비해) 극단적으로 튀는 값

 

[ 원인 ]

1) 실제 측정 결과임    (살려야 함)

2) 측정 단위의 다양성 (살려야 함)

3) 실험상 오류

4) 데이터 엔트리 오류

 

ex)

c(rnorm( 샘플 수 , 평균 , 표준편차) 강제로 넣을 값들 )

 

수업을 듣는 사람에 대한 나이를 조사했다.

28살까지는 복학생으로 칠 수 있는데 35는...?

> 교수님까지 조사했다고 판단

 

-5 는

>에러

 

 

 

 

 

Summary를 보고도 Outlier에 대해서 분석할 줄 알아야 한다.

 

 

 

 


(출처)

한동대학교 김현정교수님 - 데이터과학

댓글수0