본문 바로가기
728x90

IT 자격증96

학습데이터와 테스트데이터 분리하기 # sklearn라이브러리의 model_selection 모듈의 train_test_split() 함수 from sklearn.model_selection import train_test_split # train_test_split() 함수는 - 파라미터 독립변수들의 데이터셋 X, 종속변수들의 데이터셋 Y, 테스트데이터로 분리할 비율값 - 리턴값 독립변수인 학습데이터, 독립변수인 테스트데이터, 종속변수인 학습데이터, 종속변수인 테스트데이터 순으로 리턴 ex) x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3) . x_train과 y_train의 경우 같은 데이터쌍이고, 인덱스번호가 동일 x_test와 y_test도 같은 데.. 2022. 5. 20.
조건문으로 파생변수 만들기 1. conditon 변수를 생성 - condition에 따라 True, False가 출력됨 condition = X['wt'] < 1 2. wt_class라는 컬럼을 만들고 조건을 만족할 경우 True를 0으로 불만족할 경우 1로 저장하는 파생변수 생성 X.loc[condition, 'wt_class'] = 0 X.loc[~condition, 'wt_class'] = 1 3. 출력값에 이상이 없으면 wt컬럼은 삭제 X = X.drop(columns = ['wt']) # 연산을 통한 파생컬럼은 X['qsec_3'] = X['qsec'] * 3 2022. 5. 20.
데이터 크기변환 1. 표준크기변환 - StandardScaler 함수 : 평균값이 0, 표준편차가 1인 정규분포로 변환 import pandas as pd data = pd.read_csv('파일명') from sklearn.preprocessing import StandardScaler temp = data[['컬럼명']] scaler = StandardScaler() scaler.fit_transform(temp) // 특정 열을 입력값으로 전달 - 결과확인 : 쉬운 데이터처리를 위해 dataframe 타입으로 변경 df_scaler = pd.DataFrame(scaler.fit_transform(temp)) print(df_scaler.describe()) 0 count 3.200000e+01 mean -2.207.. 2022. 5. 19.
코랩을 이용한 데이터 전처리 https://colab.research.google.com Google Colaboratory colab.research.google.com 업로드한 데이터파일은 런타임 재활용시 삭제됨 계정으로 로그인한 경우 코드가 남아있어서 데이터만 추가하여 계속 실습이 가능 데이터가 삭제되지 않도록 하려면 Google Drive를 연결하고 파일을 Drive에 업로드 후 해당 경로를 설정하면 됨 ex) import pandas as pd data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/mtcars.csv') # 전처리 : 독립변수 X를 자세히 관찰하고, 잘 표현될 수 있는 형태로 변형하는 작업 1. 불필요한 열 삭제 - 컬럼명으로 특정한 열 삭제 X = dat.. 2022. 5. 6.
빅데이터분석기사 실기시험 유형 http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788965403197 2022 빅데이터 분석 기사 실기 필답형+작업형 - 교보문고 문제 유형을 알아야 코드가 보인다 | 이 책은 데이터 역량을 키우기 위한 국가기술 빅데이터 분석기사 실기 시험을 준비하는 수험생들을 위한 도서입니다. 실기형 출제 유형에 맞게 내용을 구성 www.kyobobook.co.kr 필자가 직접 공부하며 작성한 교재로 데이터분석, DBA, 클라우드아키텍처를 하며 쌓은 경험으로 작성한 책 테스트 데이터 : https://github.com/7ieon/bigData GitHub - 7ieon/bigData: 빅데이터 분석기사 실습 데이터 .. 2022. 5. 3.
반응형