본문 바로가기
728x90

독서111

StandardScaler # sklearn 패키지의 StandardScaler 이용 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_stdd = scaler.fit_transform(data) print(type(data_stdd)) 결과값이 ndarray DataFrame으로 변경 필요 data_stdd = pd.DataFrame(data_stdd, columns = data.columns) # 특정 범위의 값을 추출 print((data_stdd['DIS'] > 0.4) & (data_stdd['DIS'] 0.4) & (data_stdd['DIS'] 2022. 6. 6.
빈도값 구하기 2가지 방법 1. groupby 함수 활용 # 소수점을 반올림하는 함수 round() 활용 data2 = round(data['AGE'],0) 연산결과는 series타입 print(type(data2)) 연산을 위해 DataFrame으로 변환 data2 = pd.DataFrame(data2) # groupby() 함수로 변수의 값별로 개수를 구할 수 있음 print(data2.groupby(['AGE'])['AGE'].count()) data3 = data2.groupby(['AGE'])['AGE'].count() count() 연산된 결과도 series 타입 연산을 위해 DataFrame으로 변환 data3 = pd.DataFrame(data3) # 데이터프레임의 컬럼이름 확인 print(data3.c.. 2022. 6. 5.
MinMaxScaler # sklearn의 MinMaxScaler함수 이용 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() data_minmax = scaler.fit_transform(data) print(type(data_minmax)) 데이터타입이 ndarray이기 때문에 DataFrame으로 변환 필요 data_minmax = pd.DataFrame(data_minmax, columns = data.columns) print(data_minmax) # 기초통계량으로 minmax값을 확인한다 print(data_minmax['MEDV'].describe()) count 506.000000 mean 0.389618 std 0.204380 min .. 2022. 6. 5.
오름차순/내림차순 # 오름차순 data_asc.sort_values(ascending = True, inplace = True) # 내림차순 data_desc.sort_values(ascending = False, inplace = True) # 인덱스를 다시 만드는 경우 reset_index() 함수 사용 - 옵션 : dorp=True는 현재의 인덱스 정보를 남기지 않고 삭제하겠다는 의미 - 옵션 : inplace=True는 변수에 변경된 내용을 즉시 적용하겠다는 의미 data_asc.reset_index(drop = True, inplace = True) data_asc 0 187 1 188 2 188 3 188 4 188 ... 501 711 502 711 503 711 504 711 505 711 Name: TAX.. 2022. 6. 5.
그룹별 집계, 요약하기 # 특정 조건을 만족하는 데이터만 출력 tax_median = data['TAX'].median() print(data[data['TAX'] > tax_median]) # 조건을 만족하는 데이터 중 특정한 컬럼 데이터만 추출 data_new = data[data['TAX'] > tax_median][['CHAS','RAD']] # 그룹별 집계 어떤 데이터들이 있는지 unique()함수로 확인 print(data_new['CHAS'].unique()) print(data_new['RAD'].unique()) groupby()함수를 이용하여 그룹핑을 하고 함수 뒤에 수행할 대상과 수행할 작업 정의 필요 data_new2 = data_new.groupby(['CHAS','RAD'])['CHAS'].count(.. 2022. 6. 3.
728x90