Census 데이터: 미국의 인구조사 데이터
미국에서는 인구조사 데이터를 무료로 대중들에게 공개하고 있다 csv 파일 형식의 Open Census Data로 불리우는게 그것이다.
인구 데이터는 지리적 경계 단위로 집계되어있다. 전체 USA를 다음의 nested 경계로 구분한다. States > Counties > Census Tracts > Census Block Groups
Census block groups가 가장 세분화된 경계고, 따라서 한 CBG가 csv 파일의 하나의 row 를 차지한다.
또한 key(각 지리적 구역을 구분하는 이름- 정도로 이해)로서 FIPS (Federal Information Processing Standards)를 사용한다.
FIPS 는 12자리의 digital code로 state, county, census tract, census block group 의 코드를 병렬적으로 나열한 정보로서 해당 지역이 어느 지리적 구분에 속해있는지 위계별로 정확히 알 수 있다. 이는 csv 파일의 census_block_group 이라는 컬럼에서 확인 가능하다. (참고로 census개수는 220,000개가 넘는다.)
또한 각 column에는 해당 지역의 속성들이 들어간다. (ex. 18세 이상 인구의 수 등..) 컬럼의 수가 7,500 정도 되기 때문에 데이터를 다 뜯어보려고 하면 압도당하기 쉽고, 본인의 목적에 따라 잘 골라내는게 중요하다.
census data와 본인이 사용하고자 하는 data를 매칭시키려면 qgis, arcgis 등 gis 소프트웨어를 사용하면 된다.
혹시 사용이 어렵다면 보다 간단한 방법은 본인이 가지고 있는 data의 lat, lon 공간좌표를 뽑아낸 다음 point-in-polygon 방법을 이용해서 FIPS key 와 일치 시키는 것이다.
본 포스팅은 아래 영어로된 원문을 번역 및 요약 정리한 내용입니다.
www.safegraph.com/blog/beginners-guide-to-census
'석박사 > 연구노트' 카테고리의 다른 글
라이드쉐어링 서비스 실시간 차량-승객 매칭 문제 리뷰 (0) | 2020.08.28 |
---|---|
지도교수님과의 한달반 간의 연구 미팅 기록 (2) | 2020.08.23 |
Covid-19 연구에 사용할 수 있는 데이터는 어떻게 생겼을까? (0) | 2020.06.10 |
사람들의 통행이 Covid-19 확산에 미치는 영향 분석 (0) | 2020.06.10 |
코로나 이후의 교통 체증은 어떻게 될까? (0) | 2020.06.10 |