반응형
# 특정 조건을 만족하는 데이터만 출력
tax_median = data['TAX'].median()
print(data[data['TAX'] > tax_median])
# 조건을 만족하는 데이터 중 특정한 컬럼 데이터만 추출
data_new = data[data['TAX'] > tax_median][['CHAS','RAD']]
# 그룹별 집계
어떤 데이터들이 있는지 unique()함수로 확인
print(data_new['CHAS'].unique())
print(data_new['RAD'].unique())
groupby()함수를 이용하여 그룹핑을 하고
함수 뒤에 수행할 대상과 수행할 작업 정의 필요
data_new2 = data_new.groupby(['CHAS','RAD'])['CHAS'].count()
print(data_new2)
CHAS RAD
0 1 3
2 2
3 5
4 33
5 51
6 17
24 124
1 5 7
24 8
Name: CHAS, dtype: int64
그룹별 집계된 count 결과가 Dataframe이 아닌 Series 타입이라 결과값의 컬럼명을 지정하기 위해서 Dataframe으로 변경
print(type(data_new2))
data_new3 = pd.DataFrame(data_new2)
print(data_new3)
print(type(data_new3))
<class 'pandas.core.series.Series'>
CHAS
CHAS RAD
0 1 3
2 2
3 5
4 33
5 51
6 17
24 124
1 5 7
24 8
<class 'pandas.core.frame.DataFrame'>
data_new3.shape
(9, 1)
data_new3.columns = ['COUNT']
print(data_new3)
COUNT
CHAS RAD
0 1 3
2 2
3 5
4 33
5 51
6 17
24 124
1 5 7
24 8
반응형
'독서' 카테고리의 다른 글
MinMaxScaler (0) | 2022.06.05 |
---|---|
오름차순/내림차순 (0) | 2022.06.05 |
순위 구하기 (0) | 2022.06.02 |
이클립스 Dynamic Web Project에 WebContent 없음 (폴더 구조 수정방법) (0) | 2022.06.02 |
파이썬 패키지명을 찾는 방법 (0) | 2022.06.02 |