데이터 분석/코로나19
-
COVID-19 ( 7 - Data analysis and visualization ))데이터 분석/코로나19 2021. 2. 17. 09:53
이전에는 서울시 코로나 확진자 수와 누적 확진자 수를 구해 시각화해보는 과정을 수행했습니다. 이번에는 그럼 서울 어떤 지역에서 집중적으로 코로나가 발생하였는지에 대해 데이터를 통해 분석한 후 지도 시각화를 이용하여 보기 쉽게 나타내보겠습니다. 1. 서울 지역의 코로나 확진자 파악 - 서울시에서 발생한 코로나 확진자 데이터를 불러와 구별로 데이터를 나누어본 결과 특정 지역에서만 발생한 것이 아닌 서울 전 지역에서 감염이 계속해서 발생하고 있다는 것을 알 수 있습니다. 2. 지도 시각화를 위해 구별 위도, 경도 데이터 불러오기 - 구별 확진자 수를 알 수 있도록 지도 시각화를 하기 위해서는 각 구별 위도, 경도값이 필요하기에 해당 데이터를 불러왔습니다. 이에 전처리과정을 거쳐 확진자 수 데이터와 결합하였습니..
-
COVID-19 ( 7 - 분석 및 검증)데이터 분석/코로나19 2021. 2. 11. 19:17
이번에는 21년 1월 31일까지 누적 확진자 수에 대해서 살펴보겠다. -> 데이터프레임을 불러와 일별 확진자 수를 확인하였다. -> 먼저 처음 확진자가 발생한 시점부터 21년 1월 31일까지 확진자가 발생하지 않은 날짜까지 모든 날짜를 불러왔다. -> 데이터프레임 형식으로 변환하고 형변환을 거쳤다. -> 확진일자에 맞는 확진자 수를 데이터 프레임 형식으로 만들었다. -> 기존에 만들었더 확진일자와 확진수 데이터프레임을 merge( )를 통해 합쳤다. ( concat은 컬럼명이 같은 두 데이터프레임을 합치는 것으로 쉽게 표현하면 concat은 기존 데이터프레임 아래에 붙이는 형태이며 merge는 옆에 붙이는 개념이다. ) -> 누적된 수를 구하기위해서는 .cumsum( )을 사용해야하며, cumsum( )..
-
COVID-19 ( 5 - 분석 및 검증)데이터 분석/코로나19 2021. 2. 8. 16:08
지난 게시글에서 데이터프레임의 "확진일" 컬럼으로 앞으로 분석에 사용하기 위해 만든 새로운 컬럼을 바탕으로 가설 검증을 해보겠다. -> 시각화를 위한 라이브러리를 불러왔다. 1) 과연 코로나 확진자 수는 연휴 기간이 지난 후 급증하는가??? 내가 세운 첫 번째 가설이다. 이미 우리나라는 1년이라는 시간동안 코로나와 싸우고 있다. 그 동안 외출을 자제하며, 마스크와 손 소독제를 가지고 다니면서 개인 방역에 신경을 쓰면서 지냈지만 코로나가 끝나지 않고 계속 이어지자 답답한 사람들이 외출을 시도하고있다. 연휴가 길수록 외출하는 사람이 많다. 외출이 많아진다는 것은 곧 사람들간의 접촉이 늘어나게되며 코로나의 위험성을 증가시키게 된다. 기존의 데이터프레임의 '확진일'컬럼을 이용해 가설을 확인해보겠다. -> 기존의..
-
COVID-19 ( 4 - 데이터 전처리 )데이터 분석/코로나19 2021. 2. 6. 14:11
이전에는 기존의 데이터프레임에 있는 내용을 바꿨다면 이번에는 기존의 데이터프레임의 있는 내용을 가지고 새로운 컬럼을 생성하며 앞으로의 분석 방향을 확장하는 과정이다. -> 기존처럼 ipynb파일을 이용하지않고 만들었던 csv파일을 이용해 데이터프레임을 불러왔다. 여기서 처음에 생각했던 여러가지 생각 중 하나인 ' 연휴가 끝난 뒤에 확진자가 증가하는게 사실일까? ', ' 주말에는 진짜 확진자 수가 줄어드나?'를 확인하기위해 월별, 주차별 확진 정보를 알고싶었다. -> 퇴원현황 이라는 컬럼의 이름을 조치상황으로 바꾸는게 더 적합하다고 생각해 컬럼명을 바꿔주었다. -> 월별, 주차별 확진 정보를 알기 전에 "확진일" 컬럼을 datetime형태로 바꿔주어야 한다. -> datetime 형태로 바꾼 "확진일" 컬..
-
COVID-19 ( 3 - 데이터 전처리 )데이터 분석/코로나19 2021. 2. 6. 12:44
데이터 크롤링을 해보았는데 크롤링 방식에는 다른 방법도 존재한다. 앞으로 계속 분석을 할 예정이기 때문에 그 때 다른 방식을 사용해서 크롤링 해보겠다. 이번에는 크롤링한 데이터를 가지고 처음에 생각한대로 분석을 하기위해 전처리를 하는 과정을 확인할 수 있다. -> 보통 csv파일을 읽어오는데 이번에는 주피터 노트북파일인 .ipynb를 그대로 가져와보았다. 기존의 csv파일을 읽어오는거랑 똑같이 만들었던 데이터프레임이 출력이되는데 혹시나 ipynb를 그대로 가져올 때 단점이 존재한다면 댓글에 달아주시면 감사하겠습니다. -> 데이터프레임이 이상없이 불러와졌다.( 실수로 프로그램을 다시 돌리는 바람에 2월 5일까지의 확진자 정보로 업데이트가 되버렸습니다. 앞으로는 2월 5일 기준으로 작성하겠습니다. ) -> ..
-
COVID-19 ( 2 - 데이터 크롤링 )데이터 분석/코로나19 2021. 2. 6. 11:18
서울시에서 발생하는 코로나 데이터를 얻기 위해서 우선 서울시 코로나 확진자 현황 홈페이지에 접속을 하였다. (https://www.seoul.go.kr/coronaV/coronaStatus.do). 홈페이지에 들어가면 '서울 확진자 현황'이라는 테이블 형태의 표를 확인이 가능하다. 우선 해당 홈페이지의 URL을 그대로 가져와 jupyter notebook에서 분석을 시작해보겠다. => 서울시 코로나 현황 URL을 가져온 결과 컬럼명만 나오고 데이터가 나오지 않았음을 알 수 있다. 3차 대유행이 일어나기 전인 6월에 해당 URL을 가져왔을 당시에는 데이터가 이상없이 나왔지만 현재는 그렇지 않다. 1명의 확진자가 자기가 걸렸는지도 모른체 수십, 수백 명의 접촉자를 만들고 그로인해 환자가 기하급수적으로 증가함..
-
COVID-19 (1)데이터 분석/코로나19 2021. 2. 5. 21:58
중국 우한에서 처음 시작된 COVID-19( 코로나-19 )는 우리나라에서 2020년 1월 20일에 처음 확진자가 발생하였다. 1년이 지난 2021년 1월 31일 기준 78,507명( 글을 쓰고 있는 2월 5일 기준은 80,131명 확진)이 확진자가 발생하였고, 그 동안 우리나라에서는 대구 신천지 집단 감염, 서울 이태원 클럽 집단 감염을 거쳐 감염경로 조차 확인이 불가능한 3차 대유행까지 엄청난 숫자의 확진자가 발생하였으며, 지금은 변이 바이러스마저 확산 조짐이 보이고 있다. 코로나가 발생하기 이전에 누리던 우리의 자유는 모두 빼았겼으며, 지금은 마스크와 손소독제, 5인이상 집합금지, 9시 이후 모든 음식점 영업종료등 이전과 너무나도 다른 현실에서 살고있다. 우리나라 최대 명절인 설을 일주일정도 앞두고..