상세 컨텐츠

본문 제목

04. DataFrame 생성

데이터 분석/판다스

by 알파고제로 2023. 11. 10. 08:58

본문

■ DataFrame 생성

  • Pandas의 DataFrame은 DataFrame()이라는 클래스를 이용해 생성 가능하다.
  • 데이터 분석을 위한 많은 양의 데이터는 직접 생성하기보다는 파일의 형태로 읽어들인다.
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

 

data SeriesDataFrame을 작성할 데이터.
Series를 생성할 때에는 python list, DataFrame을 생성할 때에는 pythondictionary를 이용할 수 있다.
index Pandas 객체를 생성할 때 사용할 인덱스 명. 인덱스명을 지정하지 않으면 0~ 정수 값으로 지정된다.
columns DataFrame의 컬럼 명 지정.
dtype 데이터 타입의 설정
name DataFrame이나 Series의 이름을 설정

 

from pandas import Series, DataFrame
import numpy as np
import pandas as pd
raw_data = {
    '이름' : ['홍길동''전우치''손오공''사오정''저팔계'],
    '나이' : [3227303133],
    '전화번호' : ['010-1111-2222''010-1111-3333''010-1111-4444''010-1111-5555''010-1111-6666'],
    '지역' : ['서울''대구''용인''제주''속초']
}
df = DataFrame(raw_data, columns=['이름''나이','전화번호''지역'])
display(df)
df1 = DataFrame(raw_data, columns=['이름''나이','전화번호''성별'])
df1
df1['나이']

 

속성(기본 데이터 관련)

메소드 설명
df.index DataFrameIndex얻어옴
df.columns DataFrameColumns얻어옴
df.dtypes DataFramedtype을 반환
df.select_dtypes([include, exclude]) Columndtypes를 기반으로 DataFrame 열의 하위 집합을 반환한다.
df.values DataFrame의 각 열의 NumPy 표현을 반환한다.
df.ndim 배열 차원의 값을 나타내는 정수값을 반환한다.
df.size DataFrameElement 수를 나타내는 정수값을 반환한다.
df.shape DataFrame의 차원을 Tuple의 형태로 반환한다.

 

변환 / indexing

메소드 설명
df.astype(dtype) 지정된 dtype으로 캐스팅
df.head([n]) DataFrame의 첫 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.tail([n]) DataFrame의 마지막 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.at /열 레이블에 대한 단일 값 액세스
df.iat 정수 위치로 행/열 쌍의 단일 값에 액세스
df.loc 레이블이나 부울 배열로 행과 열 그룹에 액세스
df.iloc index위치를 이용하여 DataFrame에 액세스
df.insert(위치, , ) DataFrame 지정된 위치에 열을 삽입
df.get([, 기본값]) 주어진 키() 에 대한 항목을 반환
df.isin() DataFrame의 각 요소가 값에 포함되는지 여부 반환
df.pop() 해당 item을 반환하고 DataFrame에서 drop 시킨다.
df.items()
(Column, Series) 쌍을 반복해서 반환
df.keys()
 
df.where(조건[, other])
조건이 False인 경우 값을 바꾼다.
df.mask(조건[, other])
조건이 True인 값을 바꾼다.

 

 정보확인

함수 설명
info() df를 구성하는 행과 열의 요약정보 출력
index entry 정보, column의 개수와 타입, Non-Null 개수, 총 데이터 타입의 개수, 메모리 사용량
describe([include=“object|all”]) 연속형 데이터의 5 Number Summery를 출력
­총 데이터 수(count), 평균(mean), 표준편차(std), 분위수(25,50(중앙값),75%), 최대, 최소(max,min)
-
범주형 데이터의 정보 확인
­include=“object”를 입력
­count: 총개수, unique : 고유값의 개수, top:최빈값freq빈도수

'데이터 분석 > 판다스' 카테고리의 다른 글

03. Series 생성  (0) 2023.11.09
02. Index 생성  (0) 2023.11.09
01. 판다스 개요  (0) 2023.11.09

관련글 더보기

댓글 영역