[데이터 사이언스 / R] 결측치와 이상치(극단치)를 처리하는 방법 (예시)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 오늘은 R언어에서 데이터 분석을 할 때, 결측치와 이상치를 처리하는 간단한 방법들에 대해 알아볼거에요. 이 과정은 데이터 전처리 중, 데이터 정제 과정에 속합니다. 결측치는 데이터 분석 시 값을 처리할 수 없어 필수적으로 처리해야하고요. 극단치(=특이치, 이상치)는 데이터의 분포 및 평균을 왜곡하는 경우가 많아 이것도 처리하는 게 좋습니다. 극단치에 의한 통계 왜곡의 대표 사례로는, 미국의 노스캐롤라이나 대학의 졸업생 연봉(초봉)평균의 사례가 유명합니다. 졸업생들의 평균이 가장 높은 학과가 지리학과로 한화로 평균 1억이 넘는 연봉을 기록했는데요. 어떻게 지리학과에서 이렇게 많은 연봉을 받나 원인을 알아보니, 전설적인 농구선수 마이클 조던의 연봉 때문에 평균이 덩달아 저렇게 올라..
[데이터 사이언스 / R] 주성분 분석(PCA), 활용 예시 (feat. k-means 군집화)
·
IT/Data & AI
안녕하세요 밥한그릇입니다. 요즘 과제나 배우는 내용이 많아 바쁘다보니, 오히려 포스팅을 자주 못하게 되는 것 같네요. 그러나 공부하던 중 인상깊었던 지식을 공유하고 싶어 포스팅을 씁니다. R로 데이터 분석을 하다보면, 가장 중요한 과정 중 하나가 변수 선택이죠. 데이터셋에 있는 여러 변수 중 결과에 영향력 있는 변수들만 따로 뽑아, 그걸로 모델을 학습시켜야하니까요. 그렇게 선별한 변수 집합에 서로 다중공선성이 있는 변수들이 포함되거나, 결과와 상관도가 낮은 변수들이 많으면 모델의 성능 및 분석의 정확도가 떨어질 수 있습니다. 그래서 변수의 수는 적게, 성능은 높게 해줄 변수 집합을 찾아야해요. 이 과정에서 사용할 수 있는 방법 중 하나가 PCA 분석입니다. PCA 분석을 통해 차원 축소를 하여, 변수 개..
[Go] 고 루틴(go routine)의 활용 - 기초
·
IT/개발 언어 및 도구
go 언어를 처음 배우는 분들께 고루틴과 그 활용에 대해 아주 기초적인 설명을 한다고 가정하고 설명합니다. 반응이 있으면 응용편 심화편도 만들 계획이에요. 지적 및 질문은 댓글 달아주세요. 댓글 환영합니다! 고 루틴 (go routine)이 대체 뭘까? go 언어를 배우기 시작한 분이라면, 한번쯤은 들어보았을 것이 고 루틴(go routine)입니다. 그럼 이 고 루틴이라는 것이 대체 뭘까요? 스레딩 고 루틴을 알려면 스레딩을 먼저 이해해야 합니다. 쉽게 설명해보자면, 예시를 한번 들어볼 수 있겠네요. 혼자 그림을 그려야하는 웹툰작가가 있다고 해봅시다. 이 작가는 일을 마치기까지 매우 힘들어할 뿐더러 작업 속도가 오래 걸리겠죠. 이때 작업을 보조해주는 어시스턴트 일꾼들이 들어오면요? 동시에 일을 진행하므..
[블록체인] 하이퍼레저 패브릭의 개념 - 기본 구조 (네트워크)
·
IT/ETC
https://www.youtube.com/watch?v=d9EmSrNFDY8&list=PLlYCl1UOH8dima_f8QOIeY1ieuOAYKo_G 오랜만의 포스팅이네요. (앞으로 포스팅 말투를 좀더 점잖게 바꾸기로 했습니다 ㅎㅎ)유튜버 dapp campus님의 [Hyperledger Fabric Core Concept]] 01. Fabric Structure 강의를 정리한 것입니다. (위의 링크 참고)예전에 공부했던 건데 지금 올려봅니다. (노션에 정리했던 건데 그냥 그 정리본을 캡쳐해 그대로 올립니다) 문제 시 삭제하겠습니다! 댓글 주십시오. 사람들에게 블록체인이라면 보통 비트코인과 이더리움이 익숙할 것입니다.그런데 이번엔 리눅스재단의 오픈소스 프로젝트로 만들어진 하이퍼레져 패브릭에 대해 알아볼 ..
[TED] 나쁜 습관을 끊는 가장 간단한 방법. Judson Brewer
·
English/회화
지인들끼리 9명의 사람들로 구성된 Ted 스터디를 시작하여, 하루 10분가량의 ted 영상을 보고 감상평을 적는 활동을 시작했다. 각자 카카오톡 단톡방 공지에 각자 보고싶은 ted 강연 링크를 하나씩 올린다. 그리고 공유 구글 docs를 통해 해당 페이지의에 각자의 감상평을 적는다.그렇게 선정된 첫 영상의 제목이 '나쁜 습관을 끊는 가장 간단한 방법'인데, 이 ted 리뷰 활동이 나의 게으른 습관을 타파하고, 내가 교양인으로서 좋은 습관들을 만들어내는 데 도움을 줬으면 좋겠다고 생각했다. ㅎㅎA simple way to break a bad habit | Judson Brewerhttps://www.youtube.com/watch?v=-moW9jvvMr4 영상 내용우리의 뇌는 생존본능으로서 보상 기반의 ..
[데이터 사이언스] R - 숫자가 아닌 값(범주형,명목형)들을 숫자로 변환(매핑)
·
IT/Data & AI
우리가 데이터 마이닝을 할 때, 수치형 변수가 아닌 값을 수치형으로 변환시켜야하는 경우가 많다. 직접 하나하나 숫자를 대입시켜 주기는 너무 힘들다. 그 때 이 방법을 유용하게 쓸 수 있다. 결과는 다음과 같다. 숫자로 모두 매핑하기 전의 데이터 프레임과, 변환하여 완성한 새로운 데이터프레임의 값을 비교한 것이다. passanger 열의 값을 보면 잘 변환된 것을 알 수 있을 것이다. 이렇게 문자열 형태의 값들을 숫자로 매핑시키는 아주 쉬운 방법을 소개한다. 그 방법은 이거다. as.numeric(변수 열(행)) # factor형 값이라면 as.numeric(as.factor(변수 열(행)) # character형 값이라면 이게 끝이다. 활용 예시 : d