본문 바로가기

석박사/연구노트

미국의 Open Census Data(인구조사 데이터) 구조 이해하기

반응형

Census 데이터: 미국의 인구조사 데이터

미국에서는 인구조사 데이터를 무료로 대중들에게 공개하고 있다 csv 파일 형식의 Open Census Data로 불리우는게 그것이다. 

인구 데이터는 지리적 경계 단위로 집계되어있다. 전체 USA를 다음의 nested 경계로 구분한다. States > Counties > Census Tracts > Census Block Groups 

Census block groups가 가장 세분화된 경계고, 따라서 한 CBG가 csv 파일의 하나의 row 를 차지한다. 

또한 key(각 지리적 구역을 구분하는 이름- 정도로 이해)로서 FIPS (Federal Information Processing Standards)를 사용한다. 

FIPS 는 12자리의 digital code로 state, county, census tract, census block group 의 코드를 병렬적으로 나열한 정보로서 해당 지역이 어느 지리적 구분에 속해있는지 위계별로 정확히 알 수 있다. 이는 csv 파일의 census_block_group 이라는 컬럼에서 확인 가능하다. (참고로 census개수는 220,000개가 넘는다.)

 

또한 각 column에는 해당 지역의 속성들이 들어간다. (ex. 18세 이상 인구의 수 등..) 컬럼의 수가 7,500 정도 되기 때문에 데이터를 다 뜯어보려고 하면 압도당하기 쉽고, 본인의 목적에 따라 잘 골라내는게 중요하다. 

 

census data와 본인이 사용하고자 하는 data를 매칭시키려면 qgis, arcgis 등 gis 소프트웨어를 사용하면 된다.

혹시 사용이 어렵다면 보다 간단한 방법은 본인이 가지고 있는 data의 lat, lon 공간좌표를 뽑아낸 다음 point-in-polygon 방법을 이용해서 FIPS key 와 일치 시키는 것이다. 

 

 

 

 


본 포스팅은 아래 영어로된 원문을 번역 및 요약 정리한 내용입니다. 

www.safegraph.com/blog/beginners-guide-to-census

 

Everything you need to know to get started with Census and American Community Survey Data

There are thousands of reasons to bring census data into your workflow. Whether you are a retailer considering opening a store at a new location, an out-of-home advertiser considering investing in new billboards, a researcher from the CDC trying to identif

www.safegraph.com

 

반응형