
[데이터 사이언스 / R] 주성분 분석(PCA), 활용 예시 (feat. k-means 군집화)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 요즘 과제나 배우는 내용이 많아 바쁘다보니, 오히려 포스팅을 자주 못하게 되는 것 같네요. 그러나 공부하던 중 인상깊었던 지식을 공유하고 싶어 포스팅을 씁니다. R로 데이터 분석을 하다보면, 가장 중요한 과정 중 하나가 변수 선택이죠. 데이터셋에 있는 여러 변수 중 결과에 영향력 있는 변수들만 따로 뽑아, 그걸로 모델을 학습시켜야하니까요. 그렇게 선별한 변수 집합에 서로 다중공선성이 있는 변수들이 포함되거나, 결과와 상관도가 낮은 변수들이 많으면 모델의 성능 및 분석의 정확도가 떨어질 수 있습니다. 그래서 변수의 수는 적게, 성능은 높게 해줄 변수 집합을 찾아야해요. 이 과정에서 사용할 수 있는 방법 중 하나가 PCA 분석입니다. PCA 분석을 통해 차원 축소를 하여, 변수 개..