본문 바로가기

석박사/연구노트

Covid-19 연구에 사용할 수 있는 데이터는 어떻게 생겼을까?

코로나 데이터 시각화 경진대회가 열렸었어서 많은 사람들이 이미 잘 짜놓은 시각화를 참고해서 인사이트를 얻어 볼 생각이다.

dacon.io/competitions/official/235590/data/

 

코로나 데이터 시각화 AI 경진대회

출처 : DACON - Data Science Competition

dacon.io

데이터도 엄청 상세하게 잘 되어있다. 

github.com/jihoo-kim/Data-Science-for-COVID-19/blob/master/dataset-detailed-description.ipynb

 

jihoo-kim/Data-Science-for-COVID-19

DS4C: Data Science for COVID-19 in South Korea. Contribute to jihoo-kim/Data-Science-for-COVID-19 development by creating an account on GitHub.

github.com

위 사이트의 데이터 명세가 상당히 친절하지만 업데이트를 수시로 안하는 모양이다. 가장 최근까지 공개된 데이터는 아래 링크를 통해 다운받을 수 있다. 

현재 (2020년6월24일) 기준으로 2020년 5월까지의 데이터만 공개되어있고 6월 데이터는 말일에 공개된다고 한다.

www.kaggle.com/kimjihoo/coronavirusdataset?select=PatientRoute.csv

 

Data Science for COVID-19 (DS4C)

DS4C: Data Science for COVID-19 in South Korea

www.kaggle.com

미국 데이터는 여기서 얻을 수 있다

github.com/nytimes/covid-19-data

 

nytimes/covid-19-data

An ongoing repository of data on coronavirus cases and deaths in the U.S. - nytimes/covid-19-data

github.com

 


공개된 코로나 관련 데이터에 대한 설명을 간단하게 해볼까 한다. 

2020-01-20 부터 2020-05-31 까지 11468건의 누적 케이스에 대한 다양한 데이터를 포괄한다.

 

1. Case 데이터

예시에서 나오듯 무슨시 무슨 구에서 감염 사례가 발생했는지, 해당 감염사례의 확진자 수가 몇명인지 나온다. 시간적인 데이터가 같이 들어가있지는 않고 위, 경도의 공간적 좌표가 나와있다. 

case 데이터에 집계된 데이터의 수: 총 11468의 누적 확진자 수 중 10364

누락된 데이터는 왜 발생했는지 모르겠지만 확진자 수의 90%는 커버하는 데이터다. 

그룹 True/False 여부에 따라 집단 감염인지 아닌지 알 수 있고 (case 총 128 건중 집단감염 78 건, 개인감염 50 건)

집단 감염이었다면 그룹 이름을, 아니었다면 (1) 환자 접촉 (16건) (2) 해외 유입 (17건) (3)기타 (17건) 중 무엇인지 알 수 있다. 

 

 

2. 환자 데이터

 

정보를 알 수 있는 환자 수: 총 11468의 누적 확진자 수 중 4004

추측하건데 확진자 수 대비 수가 확연히 적은 것은 병원에 방문한 환자만 포함하기 때문이 아닐까 싶다. 

뒤에 짤렸지만 확진 판명 받은날, 퇴원한날, 현재 상태 (완치, 병원 격리, 사망) 도 나와있다. (완치 2340건 병원격리 1590건 사망 74건)

released 되었는데 released date이 missing 된 경우의 수: 847개

deceased 되었는데 deceased date이 missing 된 경우의 수: 9개

 

3. 환자 동선 데이터

그 다음은 환자 동선 데이터이다. 가장 흥미롭고 귀중한 데이터인데 너무 아쉬운점은 

동선이 공개된 환자 수: 총 11468의 누적 확진자 수 중 1472 사람에 대한 데이터밖에 없다는 점이다! 

두개의 다른 데이터 소스로부터 확진일, 성별, 나이대로 맞는 사람을 매칭하였는데, 매칭율이 상당히 낮기 때문이라고 설명한다. 

 

4. 시간에 따른 확진자/사망자 수 추이 (시도별 집계 값도 확인 가능)

2020/01/20 부터 2020/05/31까지 일자별로 누적 확진자 수, 완치자 수(?), 사망자 수를 알 수 있다.

연구에 쓰였을 때 흥미로울 법 한 지표는 test 건수이다. 다른 나라의 경우 진단키트 수급이 원활하지 않는 등의 문제로 test 건수에 따라 집계된 확진자 수가 달라져 확산정도를 measure 하기 적당하지 않은 문제가 없었지만 우리나라는 그런 문제가 거의 없을 뿐 아니라 test 건수까지 집계되어있어 귀중한 자료가 될 듯 하다.

일자별 확진자수를 시도 단위로 나눠서 볼 수도 있어서 좋다! 다만 여기에는 test값은 없고 이상한 것은 2020/05/31 시점의 누적 확진자수가 10934로 계속 언급하는 11468 값과 맞지 않는다는 점이다. 

 

5. 시간에 따른 확진자/사망자 수 중 연령, 성별 비중

나이대는 10대 간격으로 구분되어있다. 이것도 좋은 데이터지만 아쉬운 점은 2020/01/20가 아닌 2020/03/02부터 존재한다는 점!

2020/03/02시점으로 누적 집계된 연령, 성별 비중 부터 해서 그 이후로는 하루에 한번씩 갱신된 누적 값을 제공한다.

 

6. 구별 기초통계 정보

이미 전처리를 다 해논 구별 다양한 통계치를 제공한다. 사실상 통계청에서 찾아서 연구 목적에 맞게 가공하는게 필요할 것 같기는 하지만 린하게 시도해보기 좋을듯 하다. 

 KOSTAT (Statistics Korea)

 

KOSIS 국가통계포털

 

kosis.kr

7. 서울시 내 구별 유동인구 변화

한계는 전국구 분석이 불가능하고 서울시내에서만 가능하다는 것... 

2020-01-01 부터 2020-04-30 까지밖에 없다. 

 

8. 정부 정책

이건 진짜 귀중한 자료다! 지금까지의 굵직한 정부 정책을 시점별로 정리해놨다.