Python Machine Learning/Pandas

판다스 ( Pandas ) - 1

Data Analytics 2020. 7. 17. 14:16

판다스는 Python에서 데이터 처리를 위해 존재하는 인기 있는 라이브러리로 대부분의 데이터 세트는 2차원 데이터입니다. 즉 행( row ) x 열 ( column )로 구성돼 있습니다.

행과 열의 2차원 데이터가 인기있는 이유는 가장 이해하기 쉬운 데이터 구조이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문이고 판다스는 이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공합니다.

 

판다스의 핵심 객체는 DataFrame, Series, Index 입니다.

DataFrame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체이고

Index는 개별 데이터를 고유하게 식별하는 key값 입니다.

Series는 DataFrame처럼 Index를 key값으로 가지는데 차이점은 Series는 칼럼이 하나뿐인 데이터 구조체이고 DataFrame은 칼럼이 여러 개인 데이터 구조체라는 점입니다.

 

판다스의 기본 API로는 

  1. read_csv( )
  2. head( )
  3. shape
  4. info( )
  5. describe( )
  6. value_counts( )
  7. Sort_values( ) 

가 있으며 기본 API는 캐글에 있는 타이타닉 데이터를 이용하여 설명하겠습니다.