728x90
반응형

Kaggle 8

블랙프라이데이 데이터 EDA

사용언어는 R입니다. 참고바랍니다! #라이브러리 library(dplyr) library(ggplot2) #데이터 불러오기 train% arrange(desc(n)) %>% head(5) target_Product_ID P00110742 > P00025442 > P00057642 > P00184942임을 알 수 있었습니다. #여기서 미혼 26-35세 남성은 블랙프라이데이를 얼마나 많이 이용할까? target_diversity% select(User_ID, Gender,Age,City_Category,Marital_Status, Product_ID ) %>% filter(Gender=="M" & Age=="26-35" & Marital_Status=="0") %>% group_by(User_ID) %>% ..

Kaggle/My kaggle 2022.03.18

캐글 Time Series Prediction Tutorial with EDA

Time Series Prediction Tutorial with EDA 여기 데이터에서는 aerial bombing operations(공중 폭격 작전)과 weather conditions in world war 2(2차 세계대전 날씨)의 데이터를 사용했다. 이 시점 이후에는 2차 세계대전을 약자 ww2로 사용할 것이다. EDA (Exploratory Data Analysis)과정을 사용할 것이다. 그 후, 우리는 폭격 작업이 언제 완료되는지 예측하는 시계열 예측에 초점을 맞출 것이다. 시계열 예측을 위해 ARIMA 방법을 사용할 것입니다. 목차 데이터 불러오기 데이터 설명 데이터 클리닝 데이터 시각화 Time Series Prediction with ARIMA(ARIMA를 사용하여 시계열 예측) Wh..

카테고리 없음 2021.07.15

캐글 스터디 4주차 모델평가

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 목차 검증 방법 층화 K-겹 검증 분류 문제에서 폴드마다 포함되는 클래스의 비율을 서로 맞출 때가 자주 있는데 이것을 층화추출이라고 부른다. 가정) 테스트 데이터에 포함되는 각 클래스의 비율은 학습 데이터에 포함되는 각 클래스의 비율과 거의 같을 것이라는 가정에 근거하여 검증의 평가를 안정화하려는 방법이다. StratifiedKFold 클래스로 층화추출을 통한 검증을 수행할 수 있다. Kfold 클래스와 달리 층화추출을 위해 split 메서드의 인수에 목적변수를 입력해야 한다. 홀드아웃 검증으로..

캐글 스터디 3주차 차원 축소와 비지도학습의 특징, 기타 기법

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 목차 주성분 분석 데이터 준비 import numpy as np import pandas as pd # train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터 # pandas의 DataFrame, Series의 자료형 사용(numpy의 array로 값을 저장하기도 함.) train = pd.read_csv('C:/Users/Administrator/Desktop/2021년 1학기/tave동아리/후반기 활동/ppt/input/train_preprocessed..

캐글 스터디 2주차 특징생성

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! 모델과 특징 신경망의 특징 베이스라인 결측값 특정한 값을 결측값으로 처리하려면 데이터를 읽어들일 때 인수(argument)로 지정한다. 다음과 같이 pandas 모듈의 read.csv함수에서 na_values인수로 결측값을 지정할 수 있다. #결측값을 지정하고 train.csv 불러오기 train=pd.read.csv('train.csv', na_values=['','NA',-1,9999] 다만!! 어떤 변수에서는 -1을 결측값으로 다루는데 다른 변수에..

캐글 스터디 1주차 평가지표

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다. 문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다! import numpy as np import pandas as pd RMSE 코드 from sklearn.metrics import mean_squared_error # y_true는 실젯값이고, y_pred는 예측값이다. y_true = [1.0, 1.5, 2.0, 1.2, 1.8] y_pred = [0.8, 1.5, 1.8, 1.3, 3.0] #RMSE는 MSE에 루트를 씌운것이다. rmse = np.sqrt(mean_squared_error(y_true, y_pred)) print(rms..

728x90
반응형