-
COVID-19 ( 3 - 데이터 전처리 )데이터 분석/코로나19 2021. 2. 6. 12:44
데이터 크롤링을 해보았는데 크롤링 방식에는 다른 방법도 존재한다. 앞으로 계속 분석을 할 예정이기 때문에 그 때 다른 방식을 사용해서 크롤링 해보겠다.
이번에는 크롤링한 데이터를 가지고 처음에 생각한대로 분석을 하기위해 전처리를 하는 과정을 확인할 수 있다.
-> 보통 csv파일을 읽어오는데 이번에는 주피터 노트북파일인 .ipynb를 그대로 가져와보았다. 기존의 csv파일을 읽어오는거랑 똑같이 만들었던 데이터프레임이 출력이되는데 혹시나 ipynb를 그대로 가져올 때 단점이 존재한다면 댓글에 달아주시면 감사하겠습니다.
-> 데이터프레임이 이상없이 불러와졌다.( 실수로 프로그램을 다시 돌리는 바람에 2월 5일까지의 확진자 정보로 업데이트가 되버렸습니다. 앞으로는 2월 5일 기준으로 작성하겠습니다. )
-> 데이터프레임의 연번( <p class='corona19_no'>25023</p> )을 알아보기 쉽게 'def extract_num( )' 함수를 이용해 연번에서 25023만 추출하였다. 'def extract_num( )' 함수는 replace를 통해 'corona19를 공백으로 바꿔주었고 re.sub을 통해 0~9를 제외한 모든 것을 공백으로 바꿔주는 함수로 map( )을 통해 일괄적용 하였다.
-> 데이터 프레임에서 퇴원현황을 확인해본 결과 전처리가 필요하다.
-> 연번을 처리할 때와 유사하게 처리도 가능하다.
-> .str.contains( )를 통해 문자열에 "퇴원"이라는 글자가 존재하면 퇴원현황에 퇴원으로 바꿔주고 "사망"이라는 글자가 존재하면 사망으로 바꿔주며, "퇴원","사망"이 없는 문자열 같은 경우에는 치료중으로 바꿔주었다. ( 이부분은 그냥 간단하게 하기위해서 바꾼 것으로 마음대로 바꿔줘도 괜찮습니다. )
-> 이번에는 ipynb파일을 불러오는 방식이 아니라 지금까지 전처리 했던 부분을 csv파일로 만들어 불러오는 방식을 사용하기위해 데이터프레임을 csv파일로 변환해줬다.
'데이터 분석 > 코로나19' 카테고리의 다른 글
COVID-19 ( 7 - 분석 및 검증) (0) 2021.02.11 COVID-19 ( 5 - 분석 및 검증) (0) 2021.02.08 COVID-19 ( 4 - 데이터 전처리 ) (0) 2021.02.06 COVID-19 ( 2 - 데이터 크롤링 ) (0) 2021.02.06 COVID-19 (1) (0) 2021.02.05