본문 바로가기
728x90

빚진 자처럼, 한결같이1598

예측모델링 연속형 변수의 경우 예측모델링, 범주형 변수의 경우 분류모델링을 수행 대표적인 예측모델링 : 1. 선형회귀 2. 랜덤포레스트 회귀 3. 그레디언트 부스팅 회귀 4. 익스트림 그레디언트 부스팅 회귀 # 모델링 과정은 1. slearn라이브러리의 metrics 모듈에서 필요한 평가함수를 가져온 후 2. 평가함수를 호출하여 평가 기준에 따른 수치적인 결과를 확인 y_test의 값과 모델을 통해 구한 y_test의 예측값을 비교분석하는 과정이 필요 1. 선형회귀 y절편과 각 독립변수별로 도출된 기울기 값을 확인할 수 있음 from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(x_train, y_train) y_.. 2022. 5. 21.
학습데이터와 테스트데이터 분리하기 # sklearn라이브러리의 model_selection 모듈의 train_test_split() 함수 from sklearn.model_selection import train_test_split # train_test_split() 함수는 - 파라미터 독립변수들의 데이터셋 X, 종속변수들의 데이터셋 Y, 테스트데이터로 분리할 비율값 - 리턴값 독립변수인 학습데이터, 독립변수인 테스트데이터, 종속변수인 학습데이터, 종속변수인 테스트데이터 순으로 리턴 ex) x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3) . x_train과 y_train의 경우 같은 데이터쌍이고, 인덱스번호가 동일 x_test와 y_test도 같은 데.. 2022. 5. 20.
조건문으로 파생변수 만들기 1. conditon 변수를 생성 - condition에 따라 True, False가 출력됨 condition = X['wt'] < 1 2. wt_class라는 컬럼을 만들고 조건을 만족할 경우 True를 0으로 불만족할 경우 1로 저장하는 파생변수 생성 X.loc[condition, 'wt_class'] = 0 X.loc[~condition, 'wt_class'] = 1 3. 출력값에 이상이 없으면 wt컬럼은 삭제 X = X.drop(columns = ['wt']) # 연산을 통한 파생컬럼은 X['qsec_3'] = X['qsec'] * 3 2022. 5. 20.
범주형을 수치형으로.. 데이터 타입 변경 # 범주형을 수치형으로.. - 원핫인코딩과 라벨인코딩 사용 1. 원핫인코딩 - 범주형 데이터(Object 타입)가 가진 의미를 버리지 않고 함축된 의미를 유지핸 채 숫자형 데이터로 변경, 즉 0 또는 1로 변경 . pandas의 get_dummies() 함수 . 그냥 사용할 경우 1개의 범주형 컬럼당 2개의 컬럼이 생성되어 가독성이 떨어짐 . drop_first=True 옵션을 주면 1개의 컬럼에 1과 0이 모두 표현 ex) print(pd.get_dummies(X['컬럼명'], drop_first = True)) 2. 라벨인코딩 - 범주형 변수를 일련번호를 부여하는 방식으로 변환하는 방식 . sklearn 라이브러리의 LabelEncoder 함수 사용 from sklearn.preprocessing i.. 2022. 5. 20.
API테스트 툴 - postman https://www.postman.com/ 2022. 5. 20.
반응형