본문 바로가기

석박사/연구노트

(16)
Discrete choice modeling 초이스 모델링 (choice modeling) 공부를 하다보면 logit model, mixed logit model, probit model 등 다양한 모델들에 대한 이름을 접하게 된다. 본 게시글에서는 각 모델들이 나오게된 배경과 특징은 무엇인지, 모델에 필요한 가정은 무엇인지, 추정 방법은 어떻게 되는지 등등을 정리해보려고 한다. 시작하기 전에, 이 포스팅은 대부분 코넬대학교 Ricardo Daziano 교수님의 강의 내용을 정리했음을 밝힌다. 용어를 영어로도 밝혀야할 필요가 있다고 판단한 경우 병기했다. 0. 선수 지식¶0. 1. Cholesky decomposition¶역행렬 $A^{-1}$ 이 존재하면서 대칭 행렬 $A^{T} = A$ 인 행렬 A가 있을때 그 행렬을 하삼각행렬(lower tr..
Stochastic Gradient descent "Stochastic Gradient descent 란 무엇인가?" Stochastic Gradient descent 가 무엇인지 알기 위해서는 Gradient descent 가 무엇인지 먼저 알아야한다. Gradient descent란 무엇인가? 한국말로는 경사 하강법으로 함수의 기울기(경사)를 구해서 기울기가 낮은 쪽으로 계속 이동시켜 극값에 이를때까지 반복시키는 방법을 말한다. 일반적인 선형 회귀(linear regression) 함수를 근사(fitting) 하는 과정을 생각해보자. 우선은 기울기가 정해진 상태에서 최적 y 절편 (intercept)을 구해내는 문제를 생각해보자. y절편을 0에서 부터 시작해 점점 값을 키워나가며 잔차(실제값과 예측값의 차이)의 제곱 합(sum of squared r..
라이드쉐어링 서비스 실시간 차량-승객 매칭 문제 리뷰 우버로 대표되는 라이드 쉐어링 (Ride sharing)서비스는 승객이 차량을 호출하면 차량이 실시간으로 응답하는 (배차되는) 수요 반응형 (On-demand) 서비스이다. 당연히 승객 모두의 대기 시간이 최소화되게끔 차량과 승객을 매칭해주는 것이 서비스 품질에 지대한 영향을 끼친다. 한국에는 라이드쉐어링 서비스는 없지만 수요 응답형 (on-demand) 서비스라고 부를만한 서비스들이 적지 않다. 라이드 헤일링(ride-hailing) 서비스인 카카오 택시, 반반 택시 부터 출퇴근 시간대 이용가능한 카풀(carpool) 서비스인 풀러스, 현대자동차가 출시한 것으로 알려진 수요 응답형 버스 등이 그 예이다. 승객의 실시간 수요를 받아서 차량의 위치를 파악해 매칭시켜주어야한다는 점에서 라이드 쉐어링 서비스의..
지도교수님과의 한달반 간의 연구 미팅 기록 7월초부터 지금까지 대략 한달하고도 절반의 시간동안 연구 미팅을 진행했다. 길지 않았던 시간이지만 지도교수님과 서로 연구 성향을 파악하고, 본격적인 연구 진행에 앞서 기반을 다지는데는 충분한 시간이었다. 본격적인 개강 전 워밍업 정도의 느낌이었지만 느낀 바도 많고 향후 일년간 어떤 방향으로 나아가야할지에 대해 생각해볼 수 있는 계기가 되었다. 지도교수님의 티칭 스타일 입학 면접 당시 교수님께 지도 스타일은 어떠하신지 물었었다. 본인은 신뢰에 기반한 자유방임과 마이크로 매니지먼트 사이의 경계에서 적정한 균형을 찾아가고 있는 중이라며 한쪽으로 치우치지 않으려고 노력한다고 말씀하셨다. 실제로 많이 신경쓰시는게 느껴졌다. 주제를 잡을때는 박사과정 학생의 중요한 능력이 문제를 스스로 찾는것이니 한번 주제를 찾아보..
미국의 Open Census Data(인구조사 데이터) 구조 이해하기 Census 데이터: 미국의 인구조사 데이터 미국에서는 인구조사 데이터를 무료로 대중들에게 공개하고 있다 csv 파일 형식의 Open Census Data로 불리우는게 그것이다. 인구 데이터는 지리적 경계 단위로 집계되어있다. 전체 USA를 다음의 nested 경계로 구분한다. States > Counties > Census Tracts > Census Block Groups Census block groups가 가장 세분화된 경계고, 따라서 한 CBG가 csv 파일의 하나의 row 를 차지한다. 또한 key(각 지리적 구역을 구분하는 이름- 정도로 이해)로서 FIPS (Federal Information Processing Standards)를 사용한다. FIPS 는 12자리의 digital code로..
Covid-19 연구에 사용할 수 있는 데이터는 어떻게 생겼을까? 코로나 데이터 시각화 경진대회가 열렸었어서 많은 사람들이 이미 잘 짜놓은 시각화를 참고해서 인사이트를 얻어 볼 생각이다. dacon.io/competitions/official/235590/data/ 코로나 데이터 시각화 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 데이터도 엄청 상세하게 잘 되어있다. github.com/jihoo-kim/Data-Science-for-COVID-19/blob/master/dataset-detailed-description.ipynb jihoo-kim/Data-Science-for-COVID-19 DS4C: Data Science for COVID-19 in South Korea. Contribute to jihoo-..
사람들의 통행이 Covid-19 확산에 미치는 영향 분석 보호되어 있는 글입니다.
코로나 이후의 교통 체증은 어떻게 될까? 오늘 리뷰할 논문의 제목은 Impacts of Covid-19 mode shift on road traffic (2020), Yue Hu, Will Barbour, Samitha Samaranayake, Dan Work 이 논문은 다음과 같은 물음에서 시작된다. 코로나로 인한 shotdown이 끝나고 우리의 사회가 정상으로 돌아옴에 따라 교통 수단 선택이 바뀌고, 이에 따라 예전보다 교통체증이 심화될까? 이 질문의 핵심은 기존에 대중교통 혹은 카풀 서비스를 이용하던 많은 사람들이 개인교통수단(자가용)을 선호하게 될까? 라는데에 있다. 이 물음을 해결하기 위해 결과로서 제시하는 것은 두가지이다. 도로상에 증가하는 차량 수에 따라 얼마나 혼잡이 증가할지를 알아내는 것. 대중교통 이용률 감소에 있어 가장 민감..