[데이터 사이언스] 검색 엔진은 어떤 원리로 작동할까? + tf-idf 유사도 예제 풀이
·
IT/Data & AI
안녕하세요 밥한그릇 입니다. ^^ 무더운 여름인데 다들 잘 지내고 계시나요? 저는 저번 주 수요일을 마지막으로 1학기가 종강한 상태입니다. 막 종강을 하고 방학을 맞이하게 된 대학생의 심정이란... 후련하면서도 마음 한구석이 허무하네요. (ㅠㅠ) 지난 학기에 데이터사이언스라는 과목을 수강했었는데, 무시무시한 과제량과 진도 분량 때문에 정말 너무 힘들었어요. 그렇지만 힘들었던 만큼 배운 내용이 많았기에, 잊어버리기 전에 한번 중요한 내용들을 리뷰해보려해요! 마지막 보강주차에 내용기반(content based) 검색 중 tf-idf 기반 문서 검색에 대해 배우게 되었어요. 그러니 이번 포스팅에서는 문서 검색의 원리와 tf-idf 문서 유사도(코사인 유사도) 계산법에 대해 알아보는 시간을 가지려 합니다. 그럼..
[데이터 사이언스 / R] 결측치와 이상치(극단치)를 처리하는 방법 (예시)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 오늘은 R언어에서 데이터 분석을 할 때, 결측치와 이상치를 처리하는 간단한 방법들에 대해 알아볼거에요. 이 과정은 데이터 전처리 중, 데이터 정제 과정에 속합니다. 결측치는 데이터 분석 시 값을 처리할 수 없어 필수적으로 처리해야하고요. 극단치(=특이치, 이상치)는 데이터의 분포 및 평균을 왜곡하는 경우가 많아 이것도 처리하는 게 좋습니다. 극단치에 의한 통계 왜곡의 대표 사례로는, 미국의 노스캐롤라이나 대학의 졸업생 연봉(초봉)평균의 사례가 유명합니다. 졸업생들의 평균이 가장 높은 학과가 지리학과로 한화로 평균 1억이 넘는 연봉을 기록했는데요. 어떻게 지리학과에서 이렇게 많은 연봉을 받나 원인을 알아보니, 전설적인 농구선수 마이클 조던의 연봉 때문에 평균이 덩달아 저렇게 올라..
[데이터 사이언스 / R] 주성분 분석(PCA), 활용 예시 (feat. k-means 군집화)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 요즘 과제나 배우는 내용이 많아 바쁘다보니, 오히려 포스팅을 자주 못하게 되는 것 같네요. 그러나 공부하던 중 인상깊었던 지식을 공유하고 싶어 포스팅을 씁니다. R로 데이터 분석을 하다보면, 가장 중요한 과정 중 하나가 변수 선택이죠. 데이터셋에 있는 여러 변수 중 결과에 영향력 있는 변수들만 따로 뽑아, 그걸로 모델을 학습시켜야하니까요. 그렇게 선별한 변수 집합에 서로 다중공선성이 있는 변수들이 포함되거나, 결과와 상관도가 낮은 변수들이 많으면 모델의 성능 및 분석의 정확도가 떨어질 수 있습니다. 그래서 변수의 수는 적게, 성능은 높게 해줄 변수 집합을 찾아야해요. 이 과정에서 사용할 수 있는 방법 중 하나가 PCA 분석입니다. PCA 분석을 통해 차원 축소를 하여, 변수 개..
[데이터 사이언스] R - 숫자가 아닌 값(범주형,명목형)들을 숫자로 변환(매핑)
·
IT/Data & AI
우리가 데이터 마이닝을 할 때, 수치형 변수가 아닌 값을 수치형으로 변환시켜야하는 경우가 많다. 직접 하나하나 숫자를 대입시켜 주기는 너무 힘들다. 그 때 이 방법을 유용하게 쓸 수 있다. 결과는 다음과 같다. 숫자로 모두 매핑하기 전의 데이터 프레임과, 변환하여 완성한 새로운 데이터프레임의 값을 비교한 것이다. passanger 열의 값을 보면 잘 변환된 것을 알 수 있을 것이다. 이렇게 문자열 형태의 값들을 숫자로 매핑시키는 아주 쉬운 방법을 소개한다. 그 방법은 이거다. as.numeric(변수 열(행)) # factor형 값이라면 as.numeric(as.factor(변수 열(행)) # character형 값이라면 이게 끝이다. 활용 예시 : d
[데이터 사이언스 / R] iris 데이터셋을 이산화. 수치형(연속형) 변수를 명목형 변수로 변환
·
IT/Data & AI
요즘 학교에서 데이터 사이언스 수업을 듣는데, 과제가 아주 많다.. ㅠㅠ 팀플이라서 항상 코드가 많은데, 뭐 다 구글링으로 만든거기도 해서 정리를 잘 안해뒀다. 그치만 r 코드 관련 자료는 그렇게 엄청 많지도 않아서, 검색해도 잘 안나오기도 한다. 원하는 자료를 찾으려면 영어로 검색하는 게 훨씬 쉬울 정도이다. 그래서 내가 만든 코드라도 남들에게 도움이 될까해서 올려본다. 댓글과 지적 환영합니다~ nomi_data