Python Pandas로 데이터를 간단히 살펴보도록 하겠습니다 🙂
먼저 데이터를 읽어옵니다.
# pandas libary 로드하기
import pandas as pd
# file 읽어오기 pd.read_csv("파일 경로")
test_df = pd.read_csv('./test.csv')
1. 칼럼 정보 가져오기
test_df.columns

이렇게 하면 칼럼 정보를 가져옵니다. 제가 로드한 데이터는 총 4개의 칼럼으로 구성한 것을 알 수가 있습니다. “id”, “keyword”, “location”, “text” 칼럼이 있습니다.
2. 행 row 가 몇 개인지 체크하기
len(test_df)

3263 개의 행이 있는 데이터입니다.
3. head()
를 이용해 앞에 레코드가 어떤 것들이 있는지, tail()
을 이용해 뒤에 레코드가 어떤 것들이 있는지 확인합니다.
test_df.head()

test_df.tail()

여기서 만약에 head(5)
또는 tail(10)
처럼 괄호 안에 보고 싶은 레코드 갯수를 적어주면 그 수 만큼의 레코드를 보실 수가 있습니다.
4. 전체 레코드에 대한 요약된 내용 보기
test_df.info()

info()
를 이용하면 전체 칼럼이 무엇이 있는지, 전체 행의 수가 몇 개인지, 그리고 전체 레코드 중에서 해당 칼럼에서 missing 된 결측치 (null) 값이 아닌 수가 몇 개 인지를 통해 데이터를 전반적으로 파악할 수가 있습니다. 예를 들어 위의 요약된 내용을 보면 전체 row 행 수는 3263 개이고 id나 text 칼럼은 전체 row 수 만큼 빠짐없이 데이터가 존재하지만 그 외에 keyword는 non-null 값이 3237 개로 3263-3237 = 26개의 데이터가 빠져있다라는 것을 알 수가 있습니다.
나중에 데이터 분석 시에 이렇게 null로 빠져있는 데이터에 대해서 범주형 Categorical 데이터에 대해서는 최빈값(mode)을 채워준다거나 수치형 데이터의 경우 중앙값(median)을 채워준다거나 하는 식의 전처리를 해줄 수가 있습니다.
5. 전체 레코드 중 수치형 데이터에 대한 통계
test_df.describe()

사실 이 데이터의 경우 id만 numeric 수치형 데이터 이기 때문에 통계량을 보기에 적절하지 않을 수가 있는데요 만약에 가격 또는 키와 같은 numeric 데이터에 대해서 위와 같이 평균, 표준오차 등등의 통계량을 얻을 수가 있습니다. 그래서 다른 데이터를 가져와서 describe()
를 실행해보았습니다.

보시면 continuous 한 변수 칼럼들에 대해서 통계량 정보가 나온 것을 확인하실 수가 있습니다.
이상입니다 🙂