우리가 데이터 마이닝을 할 때, 수치형 변수가 아닌 값을 수치형으로 변환시켜야하는 경우가 많다.
직접 하나하나 숫자를 대입시켜 주기는 너무 힘들다. 그 때 이 방법을 유용하게 쓸 수 있다.
결과는 다음과 같다.
숫자로 모두 매핑하기 전의 데이터 프레임과, 변환하여 완성한 새로운 데이터프레임의 값을 비교한 것이다.
passanger 열의 값을 보면 잘 변환된 것을 알 수 있을 것이다.
이렇게 문자열 형태의 값들을 숫자로 매핑시키는 아주 쉬운 방법을 소개한다.
그 방법은 이거다.
as.numeric(변수 열(행)) # factor형 값이라면
as.numeric(as.factor(변수 열(행)) # character형 값이라면
이게 끝이다.
활용 예시 :
d <- data.frame("toCoupon_GEQ25min"=df$toCoupon_GEQ25min ,"destination"=as.numeric(df$destination),
"passanger"=as.numeric(df$passanger), "weather"= as.numeric(df$weather),
"time"=as.numeric(df$time), "coupon"=as.numeric(df$coupon),"expiration"= as.numeric(df$expiration), "CoffeeHouse"=as.numeric(as.factor(df$CoffeeHouse)),"Y"=as.numeric(df$Y))
이런 식으로 기존 데이터프레임의 명목형 값들을 수치형으로 모두 변환한 새로운 데이터프레임을 구성할 수 있다.
'IT > Data & AI' 카테고리의 다른 글
[데이터 사이언스] 검색 엔진은 어떤 원리로 작동할까? + tf-idf 유사도 예제 풀이 (0) | 2022.06.27 |
---|---|
[데이터 사이언스 / R] 결측치와 이상치(극단치)를 처리하는 방법 (예시) (0) | 2022.06.04 |
[데이터 사이언스 / R] 주성분 분석(PCA), 활용 예시 (feat. k-means 군집화) (0) | 2022.06.03 |
[데이터 사이언스 / R] iris 데이터셋을 이산화. 수치형(연속형) 변수를 명목형 변수로 변환 (0) | 2022.04.08 |