본문 바로가기

기계학습2

[ Machine Learning ]K-Nearest Neighbors(KNN) : 최근접이웃 강의 내용 정리 이번주에 3주차 강의 들었다. 내일은 실습 복습하고 과제1,2 하고~ 다음주는 좀 널널하니까 4,5주차 강의 들어야겠다. 이번 방학에 다 끝내고 기계학습 수업듣는게 목표...! ٩(๑'o'๑)۶ K-Nearest Neighbors(KNN)의 개념 : 주변 k개의 자료의 클래스 중 가장 많은 클래스로 특정 자료를 분류 //가까이에 가장 많이 있는// ⓐ KNN 특징 - 매우 간단한 방법이면서 performance는 떨어지지 않아서 많이 사용. - 데이터 차원이 증가하면 차원의 저주(curse of dimension) 문제 발생 //차원이 증가할수록 성능 저하가 심함// * 차원의 저주 : 차원이 증가할수록 데이터의 분포 분석에 필요한 샘플 데이터의 개수가 기하급수적으로 증가함 - 관측치의 거리로 Minko.. 2021. 1. 30.
[ Machine Learning ] 데이터 전처리 강의 내용 정리 데이터 전처리 주요 기법 1. 데이터 실수화 ( Data Vectorization ) : 범주형 자료. 텍스트 자료, 이미지 자료 등을 실수로 구성된 타입으로 변환 EX 1 > One-hot encoding을 이용한 범주형 자료 실수화 : DictVectorizer(sparse) *Default -> sparse = True * 희소행렬 ( Sparse Matrix ) - 불필요한 0값으로 인해 메모리 낭비가 심함, 연산 시 시간 소요 ↑ - 해결 방법 : COO표현식, CSR표현식 ( 참고 : bkshin.tistory.com/entry/NLP-7-%ED%9D%AC%EC%86%8C-%ED%96%89%EB%A0%AC-Sparse-Matrix-COO-%ED%98%95%EC%8B%9D-CSR-%ED%98%9.. 2021. 1. 18.