상세 컨텐츠

본문 제목

04. DataFrame 생성

데이터 분석/판다스

by 알파고제로 2023. 11. 10. 08:58

본문

■ DataFrame 생성

  • Pandas의 DataFrame은 DataFrame()이라는 클래스를 이용해 생성 가능하다.
  • 데이터 분석을 위한 많은 양의 데이터는 직접 생성하기보다는 파일의 형태로 읽어들인다.
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

 

data SeriesDataFrame을 작성할 데이터.
Series를 생성할 때에는 python list, DataFrame을 생성할 때에는 pythondictionary를 이용할 수 있다.
index Pandas 객체를 생성할 때 사용할 인덱스 명. 인덱스명을 지정하지 않으면 0~ 정수 값으로 지정된다.
columns DataFrame의 컬럼 명 지정.
dtype 데이터 타입의 설정
name DataFrame이나 Series의 이름을 설정

 

from pandas import Series, DataFrame
import numpy as np
import pandas as pd

raw_data = {
    '이름' : ['홍길동', '전우치', '손오공', '사오정', '저팔계'],
    '나이' : [32, 27, 30, 31, 33],
    '전화번호' : ['010-1111-2222', '010-1111-3333', '010-1111-4444', '010-1111-5555', '010-1111-6666'],
    '지역' : ['서울', '대구', '용인', '제주', '속초']
}

df = DataFrame(raw_data, columns=['이름', '나이','전화번호', '지역'])
display(df)

df1 = DataFrame(raw_data, columns=['이름', '나이','전화번호', '성별'])
df1

df1['나이']

 

속성(기본 데이터 관련)

메소드 설명
df.index DataFrameIndex얻어옴
df.columns DataFrameColumns얻어옴
df.dtypes DataFramedtype을 반환
df.select_dtypes([include, exclude]) Columndtypes를 기반으로 DataFrame 열의 하위 집합을 반환한다.
df.values DataFrame의 각 열의 NumPy 표현을 반환한다.
df.ndim 배열 차원의 값을 나타내는 정수값을 반환한다.
df.size DataFrameElement 수를 나타내는 정수값을 반환한다.
df.shape DataFrame의 차원을 Tuple의 형태로 반환한다.

 

변환 / indexing

메소드 설명
df.astype(dtype) 지정된 dtype으로 캐스팅
df.head([n]) DataFrame의 첫 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.tail([n]) DataFrame의 마지막 n개의 행을 반환. n을 생략하면 5개의 행을 반환한다.
df.at /열 레이블에 대한 단일 값 액세스
df.iat 정수 위치로 행/열 쌍의 단일 값에 액세스
df.loc 레이블이나 부울 배열로 행과 열 그룹에 액세스
df.iloc index위치를 이용하여 DataFrame에 액세스
df.insert(위치, , ) DataFrame 지정된 위치에 열을 삽입
df.get([, 기본값]) 주어진 키() 에 대한 항목을 반환
df.isin() DataFrame의 각 요소가 값에 포함되는지 여부 반환
df.pop() 해당 item을 반환하고 DataFrame에서 drop 시킨다.
df.items()
(Column, Series) 쌍을 반복해서 반환
df.keys()
 
df.where(조건[, other])
조건이 False인 경우 값을 바꾼다.
df.mask(조건[, other])
조건이 True인 값을 바꾼다.

 

 정보확인

함수 설명
info() df를 구성하는 행과 열의 요약정보 출력
index entry 정보, column의 개수와 타입, Non-Null 개수, 총 데이터 타입의 개수, 메모리 사용량
describe([include=“object|all”]) 연속형 데이터의 5 Number Summery를 출력
­총 데이터 수(count), 평균(mean), 표준편차(std), 분위수(25,50(중앙값),75%), 최대, 최소(max,min)
-
범주형 데이터의 정보 확인
­include=“object”를 입력
­count: 총개수, unique : 고유값의 개수, top:최빈값freq빈도수

'데이터 분석 > 판다스' 카테고리의 다른 글

03. Series 생성  (0) 2023.11.09
02. Index 생성  (0) 2023.11.09
01. 판다스 개요  (0) 2023.11.09

관련글 더보기

댓글 영역