본문 바로가기
728x90

강의_건강_취미/자격증68

사분위수 구하기 # 불필요한 컬럼 제거 drop 함수 이용 data.drop(columns=['CHAS','RAD']) # 각 컬럼별 IQR(Inter Quantile Range) 구하기 describe() 함수로 기초통계량을 구하여 변수에 저장 data_col12_desc = data_col12.describe() print(data_col12_desc) CRIM ZN INDUS NOX RM AGE \ count 506.000000 506.000000 506.000000 506.000000 491.000000 506.000000 mean 3.613524 11.363636 11.136779 0.554695 6.285102 68.574901 std 8.601545 23.322453 6.860353 0.115878 0.70.. 2022. 5. 31.
결측치 확인 1. 결측치 값을 평균값으로 대체 isnull() 함수 : 결측치 확인 . False : 결측치 아님, True : 결측치 isnull().sum() 함수 : 결측치 숫자 확인 copy() : 데이터를 복사 data_mean = data['RM'].copy() // 결측치가 있는 컬럼데이터만 복사 data_mean.head(3) rm_mean = data_mean.mean() print(rm_mean) mean() : 데이터의 평균을 구하는 함수, avg()함수가 아님 fillna() : 결측치를 채우는 함수 print(data_mean.fillna(rm_mean, inplace = False)) // 실제 데이터를 변경하지 않고 임시로 적용 print(data_mean.isnull().sum()) pr.. 2022. 5. 31.
Top 10 구하기 import pandas as pd data = pd.read_csv('file.csv') print(data.sort_values(by='MEDV', ascending=True)['MEDV'].head(10)) sort_values(by='컬럼명') ascending = True // 오름차순, default ascending = False // 내림차순 2022. 5. 31.
분류모델링 # 주요모델 1. 의사결정나무 2. 랜덤포레스트 분류 3. 로지스틱 회귀 4. 익스트림 그레디언트 부스팅(XGB) 분류 5. 서포트벡터 분류(SVM) 6. 배깅 분류 7. KNN(K-최근접 이웃) 분류 8. 다층 퍼셉트론 분류(MLPClassifier) # 평가방법 ROC-AUC(roc_auc_score) 정확도(accuracy_score) 정밀도(precision_score) 재현율(recall_score) 1. 의사결정나무 분류 트리를 분할하고 가지치기를 반복하여 모델 생성 - 모델만들기 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier() model.fit(x_train2, y_train2) y_test2_p.. 2022. 5. 31.
분류모델링 # 주요모델 1. 의사결정나무 2. 랜덤포레스트 분류 3. 로지스틱 회귀 4. 익스트림 그레디언트 부스팅(XGB) 분류 5. 서포트벡터 분류(SVM) 6. 배깅 분류 7. KNN(K-최근접 이웃) 분류 8. 다층 퍼셉트론 분류(MLPClassifier) # 평가방법 ROC-AUC(roc_auc_score) 정확도(accuracy_score) 정밀도(precision_score) 재현율(recall_score) 1. 의사결정나무 분류 트리를 분할하고 가지치기를 반복하여 모델 생성 - 모델만들기 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier() model.fit(x_train2, y_train2) y_test2_p.. 2022. 5. 31.
반응형