728x90 빚진 자처럼, 한결같이1598 데이터분석 연습 # 한글이 포함된 경우 오류발생 시 인코딩 설정 x_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/x_train.csv', encoding='CP949') y_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/y_train.csv', encoding='CP949') x_test = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/x_test.csv', encoding='CP949') # 컬럼명 확인 컬럼이 많은 경우 transpose(), T 함수를 활용하여 컬럼을 가로/세로 변경 후 조회 또는 pandas 옵션 설정 pd.options.dis.. 2022. 6. 6. 유니크한 값 구하기 # 컬럼 항목이 몇개인지 확인 import pandas as pd data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/boston.csv') print(data.columns) data_col = data.columns print(data_col.size) # 특정 컬럼의 Unique값 구하기 print(int(pd.DataFrame(data['CHAS'].unique()).count())) # 반복문으로 전체 컬럼의 Unique값의 합계 구하기 sum = 0 for col in data_col : sum = sum + int(pd.DataFrame(data[col].unique()).count()[0]) print(sum) 2022. 6. 6. StandardScaler # sklearn 패키지의 StandardScaler 이용 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_stdd = scaler.fit_transform(data) print(type(data_stdd)) 결과값이 ndarray DataFrame으로 변경 필요 data_stdd = pd.DataFrame(data_stdd, columns = data.columns) # 특정 범위의 값을 추출 print((data_stdd['DIS'] > 0.4) & (data_stdd['DIS'] 0.4) & (data_stdd['DIS'] 2022. 6. 6. 빈도값 구하기 2가지 방법 1. groupby 함수 활용 # 소수점을 반올림하는 함수 round() 활용 data2 = round(data['AGE'],0) 연산결과는 series타입 print(type(data2)) 연산을 위해 DataFrame으로 변환 data2 = pd.DataFrame(data2) # groupby() 함수로 변수의 값별로 개수를 구할 수 있음 print(data2.groupby(['AGE'])['AGE'].count()) data3 = data2.groupby(['AGE'])['AGE'].count() count() 연산된 결과도 series 타입 연산을 위해 DataFrame으로 변환 data3 = pd.DataFrame(data3) # 데이터프레임의 컬럼이름 확인 print(data3.c.. 2022. 6. 5. MinMaxScaler # sklearn의 MinMaxScaler함수 이용 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() data_minmax = scaler.fit_transform(data) print(type(data_minmax)) 데이터타입이 ndarray이기 때문에 DataFrame으로 변환 필요 data_minmax = pd.DataFrame(data_minmax, columns = data.columns) print(data_minmax) # 기초통계량으로 minmax값을 확인한다 print(data_minmax['MEDV'].describe()) count 506.000000 mean 0.389618 std 0.204380 min .. 2022. 6. 5. 이전 1 ··· 198 199 200 201 202 203 204 ··· 320 다음 반응형