04. DataFrame 생성

Python 데이터 분석/판다스

by 알파고제로 2023. 11. 10. 08:58

■ DataFrame 생성

Pandas의 DataFrame은 DataFrame()이라는 클래스를 이용해 생성 가능하다.
데이터 분석을 위한 많은 양의 데이터는 직접 생성하기보다는 파일의 형태로 읽어들인다.

pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

data	Series나 DataFrame을 작성할 데이터. Series를 생성할 때에는 python의 list, DataFrame을 생성할 때에는 python의 dictionary를 이용할 수 있다.
index	Pandas 객체를 생성할 때 사용할 인덱스 명. 인덱스명을 지정하지 않으면 0~ 정수 값으로 지정된다.
columns	DataFrame의 컬럼 명 지정.
dtype	데이터 타입의 설정
name	DataFrame이나 Series의 이름을 설정

from pandas import Series, DataFrame
import numpy as np
import pandas as pd

raw_data = {
    '이름' : ['홍길동', '전우치', '손오공', '사오정', '저팔계'],
    '나이' : [32, 27, 30, 31, 33],
    '전화번호' : ['010-1111-2222', '010-1111-3333', '010-1111-4444', '010-1111-5555', '010-1111-6666'],
    '지역' : ['서울', '대구', '용인', '제주', '속초']
}

df = DataFrame(raw_data, columns=['이름', '나이','전화번호', '지역'])
display(df)

df1 = DataFrame(raw_data, columns=['이름', '나이','전화번호', '성별'])
df1

df1['나이']

■ 속성(기본 데이터 관련)

메소드	설명
df.index	DataFrame의 Index를 얻어옴
df.columns	DataFrame의 Columns을 얻어옴
df.dtypes	DataFrame의 dtype을 반환
df.select_dtypes([include, exclude])	Column의 dtypes를 기반으로 DataFrame 열의 하위 집합을 반환한다.
df.values	DataFrame의 각 열의 NumPy 표현을 반환한다.
df.ndim	배열 차원의 값을 나타내는 정수값을 반환한다.
df.size	DataFrame의 Element 수를 나타내는 정수값을 반환한다.
df.shape	DataFrame의 차원을 Tuple의 형태로 반환한다.

■ 변환 / indexing

메소드	설명
df.astype(dtype)	지정된 dtype으로 캐스팅
df.head([n])	DataFrame의 첫 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.tail([n])	DataFrame의 마지막 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.at	행/열 레이블에 대한 단일 값 액세스
df.iat	정수 위치로 행/열 쌍의 단일 값에 액세스
df.loc	레이블이나 부울 배열로 행과 열 그룹에 액세스
df.iloc	index위치를 이용하여 DataFrame에 액세스
df.insert(위치, 열, 값)	DataFrame의 지정된 위치에 열을 삽입
df.get(키[, 기본값])	주어진 키(열) 에 대한 항목을 반환
df.isin(값)	DataFrame의 각 요소가 값에 포함되는지 여부 반환
df.pop()	해당 item을 반환하고 DataFrame에서 drop 시킨다.
df.items()	(Column명, Series) 쌍을 반복해서 반환
df.keys()
df.where(조건[, other])	조건이 False인 경우 값을 바꾼다.
df.mask(조건[, other])	조건이 True인 값을 바꾼다.

■ 정보확인

함수	설명
info()	df를 구성하는 행과 열의 요약정보 출력 index entry 정보, column의 개수와 타입, Non-Null 개수, 총 데이터 타입의 개수, 메모리 사용량
describe([include=“object\|all”])	연속형 데이터의 5 Number Summery를 출력 총 데이터 수(count), 평균(mean), 표준편차(std), 분위수(25,50(중앙값),75%), 최대, 최소(max,min) - 범주형 데이터의 정보 확인 include=“object”를 입력 count: 총개수, unique : 고유값의 개수, top:최빈값, freq: 빈도수

'Python 데이터 분석 > 판다스' 카테고리의 다른 글

03. Series 생성 (0)	2023.11.09
02. Index 생성 (0)	2023.11.09
01. 판다스 개요 (0)	2023.11.09

데이터 사이언스 아카데미 (Data Science Academy)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

■ DataFrame 생성

■ 속성(기본 데이터 관련)

■ 변환 / indexing

■ 정보확인

'Python 데이터 분석 > 판다스' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바