본문 바로가기
독서

그룹별 집계, 요약하기

by _><- 2022. 6. 3.
반응형

# 특정 조건을 만족하는 데이터만 출력

tax_median = data['TAX'].median()
print(data[data['TAX'] > tax_median])
 
 
 
# 조건을 만족하는 데이터 중 특정한 컬럼 데이터만 추출
 
data_new = data[data['TAX'] > tax_median][['CHAS','RAD']]


# 그룹별 집계
어떤 데이터들이 있는지 unique()함수로 확인

print(data_new['CHAS'].unique())
print(data_new['RAD'].unique())
 
 
groupby()함수를 이용하여 그룹핑을 하고
 
함수 뒤에 수행할 대상과 수행할 작업 정의 필요
 
data_new2 = data_new.groupby(['CHAS','RAD'])['CHAS'].count()
 
print(data_new2)
 
CHAS  RAD
0     1        3
      2        2
      3        5
      4       33
      5       51
      6       17
      24     124
1     5        7
      24       8
Name: CHAS, dtype: int64
 

그룹별 집계된 count 결과가 Dataframe이 아닌 Series 타입이라 결과값의 컬럼명을 지정하기 위해서 Dataframe으로 변경

print(type(data_new2))
 
data_new3 = pd.DataFrame(data_new2)
print(data_new3)
print(type(data_new3))
 
<class 'pandas.core.series.Series'>
          CHAS
CHAS RAD      
0    1       3
     2       2
     3       5
     4      33
     5      51
     6      17
     24    124
1    5       7
     24      8
<class 'pandas.core.frame.DataFrame'>
 
data_new3.shape
(9, 1)
data_new3.columns = ['COUNT']
print(data_new3)
 
          COUNT
CHAS RAD       
0    1        3
     2        2
     3        5
     4       33
     5       51
     6       17
     24     124
1    5        7
     24       8
반응형

'독서' 카테고리의 다른 글

MinMaxScaler  (0) 2022.06.05
오름차순/내림차순  (0) 2022.06.05
순위 구하기  (0) 2022.06.02
이클립스 Dynamic Web Project에 WebContent 없음 (폴더 구조 수정방법)  (0) 2022.06.02
파이썬 패키지명을 찾는 방법  (0) 2022.06.02