본문 바로가기

IT 자격증/빅데이터분석기사18

결측치 확인 1. 결측치 값을 평균값으로 대체 isnull() 함수 : 결측치 확인 . False : 결측치 아님, True : 결측치 isnull().sum() 함수 : 결측치 숫자 확인 copy() : 데이터를 복사 data_mean = data['RM'].copy() // 결측치가 있는 컬럼데이터만 복사 data_mean.head(3) rm_mean = data_mean.mean() print(rm_mean) mean() : 데이터의 평균을 구하는 함수, avg()함수가 아님 fillna() : 결측치를 채우는 함수 print(data_mean.fillna(rm_mean, inplace = False)) // 실제 데이터를 변경하지 않고 임시로 적용 print(data_mean.isnull().sum()) pr.. 2022. 5. 31.
Top 10 구하기 import pandas as pd data = pd.read_csv('file.csv') print(data.sort_values(by='MEDV', ascending=True)['MEDV'].head(10)) sort_values(by='컬럼명') ascending = True // 오름차순, default ascending = False // 내림차순 2022. 5. 31.
분류모델링 # 주요모델 1. 의사결정나무 2. 랜덤포레스트 분류 3. 로지스틱 회귀 4. 익스트림 그레디언트 부스팅(XGB) 분류 5. 서포트벡터 분류(SVM) 6. 배깅 분류 7. KNN(K-최근접 이웃) 분류 8. 다층 퍼셉트론 분류(MLPClassifier) # 평가방법 ROC-AUC(roc_auc_score) 정확도(accuracy_score) 정밀도(precision_score) 재현율(recall_score) 1. 의사결정나무 분류 트리를 분할하고 가지치기를 반복하여 모델 생성 - 모델만들기 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier() model.fit(x_train2, y_train2) y_test2_p.. 2022. 5. 31.
분류모델링 # 주요모델 1. 의사결정나무 2. 랜덤포레스트 분류 3. 로지스틱 회귀 4. 익스트림 그레디언트 부스팅(XGB) 분류 5. 서포트벡터 분류(SVM) 6. 배깅 분류 7. KNN(K-최근접 이웃) 분류 8. 다층 퍼셉트론 분류(MLPClassifier) # 평가방법 ROC-AUC(roc_auc_score) 정확도(accuracy_score) 정밀도(precision_score) 재현율(recall_score) 1. 의사결정나무 분류 트리를 분할하고 가지치기를 반복하여 모델 생성 - 모델만들기 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier() model.fit(x_train2, y_train2) y_test2_p.. 2022. 5. 31.
예측모델링 연속형 변수의 경우 예측모델링, 범주형 변수의 경우 분류모델링을 수행 대표적인 예측모델링 : 1. 선형회귀 2. 랜덤포레스트 회귀 3. 그레디언트 부스팅 회귀 4. 익스트림 그레디언트 부스팅 회귀 # 모델링 과정은 1. slearn라이브러리의 metrics 모듈에서 필요한 평가함수를 가져온 후 2. 평가함수를 호출하여 평가 기준에 따른 수치적인 결과를 확인 y_test의 값과 모델을 통해 구한 y_test의 예측값을 비교분석하는 과정이 필요 1. 선형회귀 y절편과 각 독립변수별로 도출된 기울기 값을 확인할 수 있음 from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(x_train, y_train) y_.. 2022. 5. 21.
728x90