-
KBO - 삼성 라이온즈 ( Data Crawling )데이터 분석/오재일과 삼성라이온즈 2021. 2. 16. 17:22
삼성 라이온즈
- 삼성라이온즈는 15년도 페넌트레이스 우승을 끝으로 가을야구조차 하지못하고 있다. 왕조시절 ' 야구는 9개구단이 하고 우승은 삼성이 한다'라는 말이 있을정도로 삼성의 전력은 막강했습니다. 하지만 이러한 막강한 전력을 이루던 선수들이 팀을 떠나게 되면서 팀은 급격하게 무너져버렸고, 현재 삼성은 무너진 팀을 다시 재건중입니다.
그러면 그때 삼성은 어떤 팀이였는지 데이터를 통해 확인해보겠습니다.
1. 2015 ~ 2020년 삼성라이온즈의 타자 데이터 크롤링
- 15~20시즌까지 6시즌동안 삼성에서 활약한 타자들의 데이터를 스텟티즈라는 홈페이지에서 크롤링하여 데이터프레임형태로 만들었습니다. 크롤링을 하는데 사용한 코드는 깃허브 주소에서 확인하시거나 다운받으실 수 있습니다.
2. 크롤링한 데이터프레임 전처리
- 이전 데이터프레임에서는 '팀'이라는 컬럼에 해당시즌, 팀명, 포지션이 겹쳐져있어 시즌별, 포지션별 정리가 불가능해 전처리를 통해 팀, 시즌, 이름, 포지션으로 구분하는 컬럼을 새롭게 만들었습니다.
- 데이터프레임을 만들었을 때 가장 중요한 것은 분석을 하고자 하는데 필요하지 않은 데이터를 제거하는 것이다. 총 196개의 데이터가 있는 데이터프레임에 '포지션' 컬럼을 이용해 결측값을 확인한 결과 타자포지션이 아닌 'P',' ' 컬럼이 존재하였다. ( 결측값이 있는지 확인 하고싶은 컬럼이 존재하다면 "포지션"을 원하는 컬럼으로 바꿔주면 확인 가능합니다.)
- 'P',' ' 컬럼을 제거한 뒤 데이터프레임을 확인해보면 167개의 데이터로 줄어든 것을 확인할 수 있다.
=> 이번에는 스텟티즈라는 홈페이지에서 삼성에서 15~20시즌동안 활약한 타자 데이터를 크롤링한 뒤 분석에 사용하고자하는 컬럼만 추출한 뒤 결측값을 찾아 제거하고 새롭게 데이터프레임에 저장시켜 결측값이 제거된 새로운 데이터프레임을 만들었습니다. 이런 과정에 대한 모든 코드는 제 깃허브 주소에서 확인하실 수 있습니다.
깃허브 주소 : https://github.com/jeonprize/KBO-Analysis
jeonprize/KBO-Analysis
Contribute to jeonprize/KBO-Analysis development by creating an account on GitHub.
github.com
'데이터 분석 > 오재일과 삼성라이온즈' 카테고리의 다른 글
KBO - 삼성 라이온즈 ( Data analysis and visualization ) (0) 2021.02.16 KBO - 삼성 라이온즈 ( Data analysis and visualization ) (0) 2021.02.16 KBO - 삼성 라이온즈 ( Data analysis and visualization ) (0) 2021.02.16 KBO - 삼성 라이온즈 ( Data Preprocessing ) (0) 2021.02.16 KBO - 삼성라이온즈 (0) 2021.02.16