판다스

파이썬・ML/pandas

판다스 카테고리 타입 데이터 커스텀 정렬하기

sort_index 메서드를 사용해서 데이터프레임의 인덱스를 정렬하던 중 원하는 순서대로 정렬할 수 없는 문제가 발생했습니다. 알파벳 순서로 아무리 오름차순/내림차순 정렬을 시도해도 원하는 순서대로 나열할 수 없었습니다. 고민하던 중 해당 데이터 타입을 카테고리형으로 변환해야겠다는 생각이 들었습니다. 해당 데이터는 Medal 관련 값들로 'Gold', 'Silver', 'Bronze'로 분류가 가능했습니다. from pandas.api.types import CategoricalDtype cat_medal = CategoricalDtype( ['Bronze', 'Silver', 'Gold'], ordered=True ) type(cat_medal) # pandas.core.dtypes.dtypes.Cat..

파이썬・ML/pandas

판다스 데이터프레임 정리(1) 주요속성/메서드/조회

이전 포스팅까지 Series에 대해 자세하게 살펴봤습니다. 이번 포스팅부터는 DataFrame에 대해 알아보도록 하겠습니다. import pandas as pd import numpy as np 1. 주요 속성과 메서드 데이터프레임을 구성하는 하나의 컬럼은 Series입니다. 여러 Series들이 모여 동일한 행 인덱스를 공유하며 하나의 데이터프레임을 이루는 것입니다. 이러한 데이터프레임 객체의 주요 속성과 메서드에 대해 알아보겠습니다. 1-1. 속성 ✅ shape nba.shape # (450, 5) type(nba.shape) # 데이터프레임의 형태를 튜플로 리턴합니다. 위 코드에서 nba 데이터프레임의 형태가 (450, 5)라는 사실을 알 수 있습니다. ✅ index type(nba.index) ..

파이썬・ML/pandas

판다스 Series 정리(2) 인덱싱/필터링/정렬/연산/결측값

지난 포스팅에 이어 이번 포스팅에서도 판다스 Series에 대해 알아보도록 하겠습니다. import pandas as pd import numpy as np 1. Series 인덱싱 Series를 인덱싱하는 방법은 2가지가 존재합니다. 일반적인 인덱싱 (파이썬과 넘파이식 인덱싱과 슬라이싱) 커스텀 인덱싱 (Series의 인덱스 레이블, 즉 index 속성을 사용) iloc, loc 접근자 2, 3번째 인덱싱 기법에 대해 집중적으로 알아보겠습니다. ✅ 커스텀 인덱싱 sales = [0, 5, 155, 0, 518] items = ['coffee', 'banana', 'tea', 'coconut', 'sugar'] sales_series = pd.Series(sales, index=items, name='S..

파이썬・ML/pandas

판다스 Series 정리(1) 특징/속성/생성법

안녕하세요! 판다스 라이브러리 관련 첫 포스팅입니다! 😎 판다스는 넘파이 라이브러리와 연결고리가 많습니다. 바로 이번 포스팅에서 살펴볼 Series가 넘파이 배열에 기반한 판다스 자료구조입니다. 그러면 지금부터 본격적으로 Series에 대해 알아보도록 하겠습니다. import pandas as pd import numpy as np 1. Series 특징 Series는 판다스 라이브러리의 가장 기본적인 자료구조입니다. 1차원 배열과 유사한 Series는 다음 2가지 특징을 갖습니다. 동일한 타입의 데이터만 담을 수 있습니다. 각 값에 레이블 또는 순서를 할당합니다. 이 두 참조점을 사용하면 Series 데이터에 접근이 가능합니다. flavors = ['chocolate', 'vanilla', 'straw..

파이썬・ML/pandas

판다스 데이터프레임과 피벗테이블

지난 포스팅의 MultiIndex 객체에 이어 이번에는 DataFrame과 피벗테이블에 대해 정리를 해보려고 합니다. 혹시 MultiIndex가 무엇이고 어떻게 다룰 수 있는지 헷갈린다면 지난 정리글을 참고하길 바랍니다. [pandas 파이썬 데이터분석]데이터프레임 MultiIndex 알아보기 이전 포스팅에서는 단일 인덱스(single index) 데이터프레임을 다루는 방법들에 대해 정리했습니다. 이번 포스팅에서는 2개 이상의 인덱스(multi index)를 갖는 데이터프레임을 다루는 방법에 대해 알 parix-data.tistory.com import pandas as pd 피벗 테이블 생성하기 DataFrame.pivot_table(index, values, aggfunc, columns, fill_..

파이썬・ML/pandas

판다스 데이터프레임 MultiIndex

이전 포스팅에서는 단일 인덱스(single index) 데이터프레임을 다루는 방법들에 대해 정리했습니다. 이번 포스팅에서는 2개 이상의 인덱스(multi index)를 갖는 데이터프레임을 다루는 방법에 대해 알아보도록 하겠습니다. MultiIndex 객체는 주로 한 열의 값이 다른 열 값의 하위 범주에 속하는 계층적 데이터에 적용하기 좋습니다. import pandas as pd import numpy as np MultiIndex 객체 이전에 하나의 요소로 구성된 인덱스 레이블로 데이터프레임의 특정 행을 참조할 수 있다는 사실을 확인한 바 있습니다. 하지만 지금부터 알아볼 인덱스 레이블은 여러 요소로 구성된다는 차이가 있습니다. 이를 통해 MultiIndex 객체는 여러 데이터 조각을 저장하는 인덱스라..

truezero
'판다스' 태그의 글 목록