TAVE 활동/Kaggle study

캐글 스터디 2주차 특징생성

토토모에요 2021. 7. 15. 18:11
728x90
반응형

슬라이드2_1

"데이터가 뛰어노는 AI놀이터, 캐글" 참고하여 스터디를 진행하였고 책을 바탕으로 발표용 ppt를 만들었습니다.

문제가 있을 시 댓글 남겨주시거나 이메일 totoma3@naver.com 으로 연락주시기 바랍니다!

슬라이드2_2

모델과 특징

슬라이드2_3

신경망의 특징

슬라이드2_4

베이스라인

슬라이드2_5

슬라이드2_6

결측값

슬라이드2_7

슬라이드2_8

슬라이드2_9

슬라이드2_10

슬라이드2_11

슬라이드2_12

특정한 값을 결측값으로 처리하려면 데이터를 읽어들일 때 인수(argument)로 지정한다. 다음과 같이 pandas 모듈의 read.csv함수에서 na_values인수로 결측값을 지정할 수 있다.

#결측값을 지정하고 train.csv 불러오기
train=pd.read.csv('train.csv', na_values=['','NA',-1,9999]

다만!! 어떤 변수에서는 -1을 결측값으로 다루는데 다른 변수에서는 유효한 값으로 -1이 나타날 경우, 앞에서 설명한 것처럼 데이터를 읽어들일 때 해당 값을 결측값으로 지정할 수 없다.
이럴 때는 일단 수치나 문자열 데이터로 읽어들인 뒤 다시 결측값으로 바꾸면 유연하게 대처할 수 있다.

# 열 col1의 값 -1을 결측값(nan)으로 변경
data['col1']=data['col1'].replace(-1,np.nan)
반응형