728x90
반응형

Machine Learning 7

캐글 스터디 4주차 모델평가

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 목차 검증 방법 층화 K-겹 검증 분류 문제에서 폴드마다 포함되는 클래스의 비율을 서로 맞출 때가 자주 있는데 이것을 층화추출이라고 부른다. 가정) 테스트 데이터에 포함되는 각 클래스의 비율은 학습 데이터에 포함되는 각 클래스의 비율과 거의 같을 것이라는 가정에 근거하여 검증의 평가를 안정화하려는 방법이다. StratifiedKFold 클래스로 층화추출을 통한 검증을 수행할 수 있다. Kfold 클래스와 달리 층화추출을 위해 split 메서드의 인수에 목적변수를 입력해야 한다. 홀드아웃 검증으로..

캐글 스터디 3주차 차원 축소와 비지도학습의 특징, 기타 기법

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 목차 주성분 분석 데이터 준비 import numpy as np import pandas as pd # train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터 # pandas의 DataFrame, Series의 자료형 사용(numpy의 array로 값을 저장하기도 함.) train = pd.read_csv('C:/Users/Administrator/Desktop/2021년 1학기/tave동아리/후반기 활동/ppt/input/train_preprocessed..

캐글 스터디 2주차 특징생성

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 모델과 특징 신경망의 특징 베이스라인 결측값 특정한 값을 결측값으로 처리하려면 데이터를 읽어들일 때 인수(argument)로 지정한다. 다음과 같이 pandas 모듈의 read.csv함수에서 na_values인수로 결측값을 지정할 수 있다. #결측값을 지정하고 train.csv 불러오기 train=pd.read.csv('train.csv', na_values=['','NA',-1,9999] 다만!! 어떤 변수에서는 -1을 결측값으로 다루는데 다른 변수에..

728x90
반응형