빈틈
Numpy & Pandas 본문
1. 한글이 포함된 데이터 로드 시 인코딩 방법
2. 데이터 타입에 따른 컬럼 출력 : select_dtype
include 옵션 : number는 수치형 변수(float, int 등), object는 범주형 변수
exclude 옵션 : (exclude='object')로 설정하면 object를 제외한 나머지 타입의 변수 컬럼들이 모두 출력
3. 도메인(유일값) 출력 : unique / nunique / value_counts
4. loc 행열 조회
1) df.loc['행 인덱스 명']
: 1차원 시리즈로 행 내용 출력
2) df.loc[['행 인덱스 명']]
: 2차원 데이터프레임으로 행 내용 출력
3) df.loc[['행 인덱스 명1', '행 인덱스 명2']]
: 복수의 행 내용을 배열로 출력
4) df.loc['행 인덱스 명1' : '행 인덱스 명2']
: 복수의 행 내용을 인덱싱하여 연속으로 출력
------------------------------------------------------------
5) df.loc[ : , '컬럼명']
: 1차원 시리즈로 열 내용 출력
6) df.loc[ : , ['컬럼명']]
: 2차원 데이터프레임으로 열 내용 출력
7) df.loc[ : , '컬럼명1' : '컬럼명2']
: 복수의 열 내용을 인덱싱하여 연속으로 출력
------------------------------------------------------------
8) df.loc['로우명', '컬럼명']
: 해당하는 행과 열에 일치하는 데이터 값 반환
9) df.loc[['로우명1','로우명2'], ['컬럼명1','컬럼명2']]
: 해당하는 행과 열에 일치하는 복수의 데이터 값을 2차원 배열로 반환
5. 반환되는 인덱스를 0부터 재정렬 : reset_index(drop=True)
df.reset_index(drop=True)
예시)
6. 데이터프레임의 특정 컬럼을 기준으로 오름차순 정렬 : sort_values()
내림차순 옵션 : (ascending=False)
7. 데이터프레임에서 특정 컬럼의 상위값 찾기
1) sort_values() : 데이터프레임에서 특정 컬럼 값이 큰 순서대로 출력
- ascending=False 옵션은 내림차순 정렬
2) idxmax()
: 기준컬럼명에 따른 수치형컬럼명을 먼저 찾은 후, 값이 큰 순서대로 정렬
8. iloc
* 데이터프레임 전체 행에서 상위 70% 범위 선택
9. 컬럼의 고유값 추출 : set
* 컬럼의 고유값 추출 후 갯수 세기 예시
'data' 카테고리의 다른 글
| Machine Leanring (0) | 2023.05.17 |
|---|---|
| 통계 라이브러리 (0) | 2023.05.17 |
| EDA (0) | 2023.05.14 |