728x90 독서111 분류모델 만들고 평가하기 연습 1. 데이터 분리하기 from sklearn.model_selection import train_test_split X_TRAIN, X_TEST, Y_TRAIN, Y_TEST = train_test_split(x_train, y_train, test_size = 0.2, random_state = 10) 1.1 shape으로 데이터의 모양을 확인 필요 만약 종속변수의 컬럼이 2개 이상인 경우 오류 model.fit(X_TRAIN, Y_TRAIN) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) in () ----> 1 model.fit(X.. 2022. 6. 18. 전처리 연습 1. 불필요한 컬럼 제거 1-1. 따로 저장했다가 나중에 붙이기 x_test_passenser_id = x_test['PassengerId'] x_test = x_test.drop(columns = ['PassengerId']) final = pd.concat([x_test_passenser_id, y_test_predicted], axis=1) 2. 결측치 처리하기 x_train.info() RangeIndex: 891 entries, 0 to 890 Data columns (total 8 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 티켓등급 891 non-null int64 1 성별 891 non-null obje.. 2022. 6. 18. 힘들고 배고픔의 가치 1. 나이가 들수록 지위가 높아지고 권력이 있는 위치에 설 기회가 많다. 또 맛있는 음식을 접할 기회가 많아진다. 2. 과연 편하고 배부른 것이 좋을까 ? 만모니즘 (돈이 제일) 이 최고의 가치로 여겨지고 더 편하고 남을 시키는 것을 최고의 가치로 여기며 사는 것이 행복할까? 3. 성경에서는 하나님의 지혜를 얻는 것이 진정한 축복의 삶이라고 알려준다. 고난 또한 하나님께서 우리를 사용하시기 위해, 하나님과의 관계 회복을 위해 사용하시는 축복의 도구 라고 알려준다. 4. 나이가 들수록 똑같이 먹고 움직여도 살이 찌고 이 편한 걸 찾게 된다. 5. 편한 일을 찾기보다 나이들수록 힘든 것이 당연한 것으로 생각하고 직접 움직이고 몸을 더 사용해야 더욱 건강해질 수 있다. 6. 흔히들 힘들때 당이 떨어졌다고 사탕.. 2022. 6. 16. 데이터분석 연습 # 한글이 포함된 경우 오류발생 시 인코딩 설정 x_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/x_train.csv', encoding='CP949') y_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/y_train.csv', encoding='CP949') x_test = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/x_test.csv', encoding='CP949') # 컬럼명 확인 컬럼이 많은 경우 transpose(), T 함수를 활용하여 컬럼을 가로/세로 변경 후 조회 또는 pandas 옵션 설정 pd.options.dis.. 2022. 6. 6. 유니크한 값 구하기 # 컬럼 항목이 몇개인지 확인 import pandas as pd data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/boston.csv') print(data.columns) data_col = data.columns print(data_col.size) # 특정 컬럼의 Unique값 구하기 print(int(pd.DataFrame(data['CHAS'].unique()).count())) # 반복문으로 전체 컬럼의 Unique값의 합계 구하기 sum = 0 for col in data_col : sum = sum + int(pd.DataFrame(data[col].unique()).count()[0]) print(sum) 2022. 6. 6. 이전 1 ··· 5 6 7 8 9 10 11 ··· 23 다음 728x90