본문 바로가기

사업

(27)
[Corona 19] 전세계 확진자 수 변화 추이 시각화 https://www.youtube.com/watch?v=0INklq4iKbE 우리나라는 물론 몇차례의 집단 감염 사태가 있었지만 그래도 빠른 진단기술과 훌륭한 의료진의 희생으로 성장세가 둔화되고 있는 추세이다. 반면, 다른 나라들에서는 점점 상황이 심각해져가고있다. 문득 지난 두달간 나라별 확진자 수 변화 추이가 궁금해졌다. 인터넷에 찾아보니 시간의 흐름에 따른 나라별 확진자 수 변화는 시각화 된 자료가 없어 직접 시각화해보았다. 위 동영상은 1월 22일부터 3월 11일까지의 확진자 수 top 7 국가가 어떻게 변화해왔는지 보여준다.
웹크롤링과 데이터 시각화로 만들어본 유튜브 데이터의 bar chart race 유튜브 컨텐츠를 보던 도중 사람들이 개별 채널 뿐 아니라 유튜브 생태계 자체에도 관심을 갖는다는 사실을 깨달았다. 특정 카테고리 내에서 누가 지는 별인지, 신흥 강자인지 보여주는 컨텐츠에 사람들은 댓글로 저마다 자신만의 분석을 내놓았다. 카테고리별 유튜브 구독자 순위를 그래프를 이용해 보여주는 python 코드를 완성했다. 카테고리별 유튜버 top 50명의 목록을 받아와서 월별 구독자, 조회수 등 과거 데이터를 scraping 해올 수 있는 코드이다. 일단 데이터가 수집되면 이를 bar chart race로 표현하는건 쉽다. 완성된 동영상은 아래 링크에서 확인할 수 있다. https://youtu.be/jq8XBql6pAk 파이썬 코드
웹 크롤링 중 일어날 수 있는 오류들 정리 0. 당연히 가장 많이 발생하는 오류는 기본적인 문법을 틀려서일 것이다. 기초가 부족한 상황이라면 웹 크롤링의 개괄적인 내용을 먼저 이해하고 프로그래밍을 시작하는게 결과적으로 시간을 줄이는 길이다. 인터넷의 크롤링 관련 포스팅 중 가장 양질의 포스팅을 공유한다. 실제 코드를 예시로 들어 초보자도 이해하기 쉽게 차근차근 설명되어있다. https://book.coalastudy.com/data-crawling/ 1. 정적크롤링을 위한 Requests 라이브러리에서 발생할 수 있는 오류 import requests url = 'https://youngseokim.tistory.com' html = requests.get(url) soup = BeautifulSoup(html.text, 'html.parser'..