Numpy & Pandas

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

빈틈

Numpy & Pandas 본문

data

Numpy & Pandas

prs21 2023. 5. 14. 16:23

1. 한글이 포함된 데이터 로드 시 인코딩 방법

path = "https://raw.githubusercontent.com/pandas/main/sample.csv"

df = pd.read_csv(path, encoding='euc-kr')

df.head()

2. 데이터 타입에 따른 컬럼 출력 : select_dtype

include 옵션 : number는 수치형 변수(float, int 등), object는 범주형 변수

exclude 옵션 : (exclude='object')로 설정하면 object를 제외한 나머지 타입의 변수 컬럼들이 모두 출력

# 수치형 변수 컬럼 출력

df2.select_dtypes(include='number').columns

# 범주형 변수 컬럼 출력

df2.select_dtypes(include='object').columns

3. 도메인(유일값) 출력 : unique / nunique / value_counts

#1. 특정 컬럼의 도메인 종류

df['컬럼명'].unique()

#2. 특정 컬럼의 도메인 갯수

df['컬럼명'].nunique()

#3. 특정 컬럼의 도메인별 값의 갯수

df['컬럼명'].value_counts

4. loc 행열 조회

1) df.loc['행 인덱스 명']
: 1차원 시리즈로 행 내용 출력

2) df.loc[['행 인덱스 명']]
: 2차원 데이터프레임으로 행 내용 출력

3) df.loc[['행 인덱스 명1', '행 인덱스 명2']]
: 복수의 행 내용을 배열로 출력

4) df.loc['행 인덱스 명1' : '행 인덱스 명2']
: 복수의 행 내용을 인덱싱하여 연속으로 출력

------------------------------------------------------------

5) df.loc[ : , '컬럼명']
: 1차원 시리즈로 열 내용 출력

6) df.loc[ : , ['컬럼명']]
: 2차원 데이터프레임으로 열 내용 출력

7) df.loc[ : , '컬럼명1' : '컬럼명2']
: 복수의 열 내용을 인덱싱하여 연속으로 출력

------------------------------------------------------------

8) df.loc['로우명', '컬럼명']
: 해당하는 행과 열에 일치하는 데이터 값 반환

9) df.loc[['로우명1','로우명2'], ['컬럼명1','컬럼명2']]
: 해당하는 행과 열에 일치하는 복수의 데이터 값을 2차원 배열로 반환

5. 반환되는 인덱스를 0부터 재정렬 : reset_index(drop=True)

df.reset_index(drop=True)

예시)

df.loc[df['컬럼명']==7].head().reset_index(drop=True)

6. 데이터프레임의 특정 컬럼을 기준으로 오름차순 정렬 : sort_values()

내림차순 옵션 : (ascending=False)

df.sort_values('컬럼명').reset_index(drop=True).head()

7. 데이터프레임에서 특정 컬럼의 상위값 찾기

1) sort_values() : 데이터프레임에서 특정 컬럼 값이 큰 순서대로 출력
- ascending=False 옵션은 내림차순 정렬

df.sort_values(by=['컬럼명'], ascending=False).head(10).reset_index(drop=True)

2) idxmax()
: 기준컬럼명에 따른 수치형컬럼명을 먼저 찾은 후, 값이 큰 순서대로 정렬

df.loc[df.groupby(['기준컬럼명'])['수치형컬럼명'].idxmax()]

8. iloc

* 데이터프레임 전체 행에서 상위 70% 범위 선택

df.iloc[:int(len(df)*0.7)]

9. 컬럼의 고유값 추출 : set

* 컬럼의 고유값 추출 후 갯수 세기 예시

result12 = len(set(df12_1990_filter['Country Code']) & set(df12_2010_filter['Country Code']))

'data' 카테고리의 다른 글

Machine Leanring (0)	2023.05.17
통계 라이브러리 (0)	2023.05.17
EDA (0)	2023.05.14

'data' Related Articles

빈틈

Numpy & Pandas 본문

Numpy & Pandas

'data' 카테고리의 다른 글

티스토리툴바