4학년/데이터 과학 ( Data Science )
[ 데이터 과학 ] 9. Missing Value / Outlier
쫑알bot
2025. 4. 3. 15:36
728x90
Missing Value에 대해서 어떻게 처리하는가?


colSums로 각 열에 na가 몇 개 있는지도 볼 수 있고
summary로 더 자세히 볼 수도 있긴 하다.

- 해당 행(Row)에 missing Value가 있는지 확인하는 것
- omit : 특정 data frame에 na를 없앨 수도 있다.
complete 로 T,F,T,F가 나왔으니까
각 행의 1,3열만 출력시킨 것이다.
Outliers and Obvuious Errors
Outlier : (다른 데이터들에 비해) 극단적으로 튀는 값
[ 원인 ]
1) 실제 측정 결과임 (살려야 함)
2) 측정 단위의 다양성 (살려야 함)
3) 실험상 오류
4) 데이터 엔트리 오류
ex)

c(rnorm( 샘플 수 , 평균 , 표준편차) 강제로 넣을 값들 )
수업을 듣는 사람에 대한 나이를 조사했다.
28살까지는 복학생으로 칠 수 있는데 35는...?
> 교수님까지 조사했다고 판단
-5 는
>에러

Summary를 보고도 Outlier에 대해서 분석할 줄 알아야 한다.



(출처)
한동대학교 김현정교수님 - 데이터과학