Python28 [머신러닝] 텍스트 데이터 분석 TEST - 네이버 지식인에서 '남자친구 선물' 크롤링 후 자연어 분석 1. 텍스트 데이터 변환하기 - 말뭉치 엔진 '꼬꼬마', '한나눔', 'tweeter(Okt)' 를 이용해 '대한민국의 영토는 한반도와 그 부속도서로 한다' 분석 2. '남자 친구 선물' 을 네이버에서 검색하여 10 * 1000개의 지식인 페이지의 데이터를 크롤링한 뒤 분석. - wordcloud 그리기 - word2vector 사용 최다 빈도수의 most_similar 구하기 2020. 7. 27. [머신러닝] Kaggle - 타이타닉 생존자 분석 캐글 업로드! 2020. 7. 27. [머신러닝] K-Fold Cross Validation 개념 및 예제 / 붓꽃 예제 검증 (+ 파이썬으로 구현하는 방법) / 그리드 서치 K-Fold Cross Validation K겹 교차검증 통계학에서 모델을 평가하는 방법 중 하나 데이터 셋의 크가가 작은 경우, 성능 평가의 신뢰성이 떨어지는 문제 발생 -> 모든 데이터가 최소 한 번은 테스트 셋으로 쓰이도록 하는 것이 K-겹 교차 검증 데이터를 검증하는 방법 모델의 타당성을 검증하는 크로스 밸리데이션 교차 검증 : Cross-validation 모델의 타당성을 검증하는 방법 중 하나 특정 데이터를 훈련 전용데이터와 테스트 전용 데이터로 분할 훈련데이터로 학습하고 테스트 데이터로 학습의 타당성 검증하는 방법 K 분할 교차 검증 : K-fold cross validation 3-fold cross validation 집합 X 를 3개로 분할 : A, B, C A:테스트, (B,C):훈련.. 2020. 7. 24. [머신러닝] 랜덤 포레스트 (Random Forest) 개념 및 예제 실습 / 독버섯 예제 랜덤 포레트스 랜덤 포레스트 - Random Forest 집단 학습을 기반으로 고정밀 분류, 회귀, 클러스트링 구현 학습 데이터로 다수의 의사결정 트리를 만들고 그 결과의 다수결 결과 유도로 높은 정밀도 무작위 샘플링과 다수의 의사결정 트리 => Random Forest 결정 트리(Decision Tree) 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나 결정 트리는 스무고개 하듯이 예/아니오 질문을 이어가며 학습 한 번의 분기 때마다 변수 영역을 두 개로 구분 매, 펭귄, 돌고래, 곰을 구분한다고 생각해보자 Terminal Node는 LeafNode 라고도 함 프로세스 1. 데이터를 가장 잘 구분할 수 있는 질문을 기준으로 나누기 2. 나뉜 각 범주에.. 2020. 7. 24. 이전 1 2 3 4 ··· 7 다음