Notice
Recent Posts
Recent Comments
Link
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

빈틈

Numpy & Pandas 본문

data

Numpy & Pandas

prs21 2023. 5. 14. 16:23

1. 한글이 포함된 데이터 로드 시 인코딩 방법


df = pd.read_csv(path, encoding='euc-kr')
df.head()

 

2. 데이터 타입에 따른 컬럼 출력 : select_dtype

include 옵션 : number는 수치형 변수(float, int 등), object는 범주형 변수

exclude 옵션 : (exclude='object')로 설정하면 object를 제외한 나머지 타입의 변수 컬럼들이 모두 출력

# 수치형 변수 컬럼 출력

df2.select_dtypes(include='number').columns
# 범주형 변수 컬럼 출력

df2.select_dtypes(include='object').columns

 

3. 도메인(유일값) 출력 : unique / nunique / value_counts

#1. 특정 컬럼의 도메인 종류
df['컬럼명'].unique()

#2. 특정 컬럼의 도메인 갯수
df['컬럼명'].nunique()

#3. 특정 컬럼의 도메인별 값의 갯수
df['컬럼명'].value_counts

 

4. loc 행열 조회

1) df.loc['행 인덱스 명']
: 1차원 시리즈로 행 내용 출력

2) df.loc[['행 인덱스 명']]
: 2차원 데이터프레임으로 행 내용 출력

3) df.loc[['행 인덱스 명1', '행 인덱스 명2']]
: 복수의 행 내용을 배열로 출력

4) df.loc['행 인덱스 명1' : '행 인덱스 명2']
: 복수의 행 내용을 인덱싱하여 연속으로 출력

------------------------------------------------------------

5) df.loc[ : , '컬럼명']
: 1차원 시리즈로 열 내용 출력

6) df.loc[ : , ['컬럼명']]
: 2차원 데이터프레임으로 열 내용 출력

7) df.loc[ : , '컬럼명1' : '컬럼명2']
: 복수의 열 내용을 인덱싱하여 연속으로 출력

------------------------------------------------------------

8) df.loc['로우명', '컬럼명']
: 해당하는 행과 열에 일치하는 데이터 값 반환

9) df.loc[['로우명1','로우명2'], ['컬럼명1','컬럼명2']]
: 해당하는 행과 열에 일치하는 복수의 데이터 값을 2차원 배열로 반환

 

5. 반환되는 인덱스를 0부터 재정렬 : reset_index(drop=True)

df.reset_index(drop=True)

예시)

df.loc[df['컬럼명']==7].head().reset_index(drop=True)

 

 

6. 데이터프레임의 특정 컬럼을 기준으로 오름차순 정렬 : sort_values()

내림차순 옵션 : (ascending=False)

df.sort_values('컬럼명').reset_index(drop=True).head()

 

 

7. 데이터프레임에서 특정 컬럼의 상위값 찾기

1) sort_values() : 데이터프레임에서 특정 컬럼 값이 큰 순서대로 출력
- ascending=False 옵션은 내림차순 정렬 

df.sort_values(by=['컬럼명'], ascending=False).head(10).reset_index(drop=True)

2)  idxmax()
: 기준컬럼명에 따른 수치형컬럼명을 먼저 찾은 후, 값이 큰 순서대로 정렬

df.loc[df.groupby(['기준컬럼명'])['수치형컬럼명'].idxmax()]

 

 

8. iloc

* 데이터프레임 전체 행에서 상위 70% 범위 선택

df.iloc[:int(len(df)*0.7)]

 

 

9. 컬럼의 고유값 추출 : set

* 컬럼의 고유값 추출 후 갯수 세기 예시

result12 = len(set(df12_1990_filter['Country Code']) & set(df12_2010_filter['Country Code']))

 

'data' 카테고리의 다른 글

Machine Leanring  (0) 2023.05.17
통계 라이브러리  (0) 2023.05.17
EDA  (0) 2023.05.14