[데이터 사이언스 / R] 결측치와 이상치(극단치)를 처리하는 방법 (예시)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 오늘은 R언어에서 데이터 분석을 할 때, 결측치와 이상치를 처리하는 간단한 방법들에 대해 알아볼거에요. 이 과정은 데이터 전처리 중, 데이터 정제 과정에 속합니다. 결측치는 데이터 분석 시 값을 처리할 수 없어 필수적으로 처리해야하고요. 극단치(=특이치, 이상치)는 데이터의 분포 및 평균을 왜곡하는 경우가 많아 이것도 처리하는 게 좋습니다. 극단치에 의한 통계 왜곡의 대표 사례로는, 미국의 노스캐롤라이나 대학의 졸업생 연봉(초봉)평균의 사례가 유명합니다. 졸업생들의 평균이 가장 높은 학과가 지리학과로 한화로 평균 1억이 넘는 연봉을 기록했는데요. 어떻게 지리학과에서 이렇게 많은 연봉을 받나 원인을 알아보니, 전설적인 농구선수 마이클 조던의 연봉 때문에 평균이 덩달아 저렇게 올라..