////
Search
1️⃣

시계열의 개요와 역사

Preface

예제 코드
예제 코드 저장소(link)
옮긴이가 제공하는 예제 코드(link), 구글 Colab에서 실행 가능
프로그래밍 언어
R: data.table
RStudio Download (link)
Python: NumPy, Pandas, scikit-learn

책의 구성

시계열 분석의 역사 (1장)
시계열 데이터 처리 (2-5장): 데이터의 수집, 정리, 시뮬레이션, 저장과 관련된 이슈들
시계열 모델링 (6-10장): 시계열 분석에 사용된 다양한 모델링 기법 (ARIMA, 베이즈 상태 공간 모델, 머신러닝, 신경망)
모델링 이후의 고려 사항 (11-12장): 모델 정확성에 대한 분석, 성능 평가
시계열 분석 사례 (13-15장): 헬스케어, 금융, 정부 데이터에 대한 분석 사례
향후 전망 (16-17장)

1.1 다양한 응용 분야의 시계열 역사

시계열 분석 (Time Series Analysis) 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하는 과정 과거가 미래에 어떤 영향을 주는가?”
시계열 분석은 하나의 일반화된 학문으로 다뤄지기보다는 다양한 분야에서의 문제들을 해결하기 위해 다뤄지고 발전되었음
의학, 기상학, 경제학, 천문학
의학에서의 시계열 문제
환자의 예후는 실전 의학에서 매우 중요하지만, 해당 문제에 수학적/통계적 접근법이 본격적으로 적용되기 시작한 것은 오래되지 않았음
통계적 사고에 대해 훈련 받은 의사라도 대부분 고립된 환경에서 경험을 쌓아야 했고, 환자 및 인구집단건강 관련 공식적인 데이터를 관리하는 기관이 없었음
존 그란트(John Graunt): 1500년대 초반부터 런던 교외에 보관되어 있는 사망 기록에 대한 연구를 수행 → 인구통계학의 시초
생명표(life table): 특정 연령대에 있는 사람이 다음 생일 전에 사망할 확률
심전도(ECG: Electrocardiogram)
환자에 대한 시계열 분석은 인구 차원의 건강 연구보다 일찍 연구되기 시작함
1877년, 의학박사 월러(Waller)가 발표한 논문 “A Demonstration on Man of Electromotive Changes Accompanying the Heart’s Beat”에 수록된 초기 ECG 기록
뇌전도(EEG: Electroencephalography): 비침습적으로 두뇌의 전기 임펄스를 측정
1924년, 최초의 EEG 기록
ECG, EEG 등의 의학 시계열에 분류 기법을 적용하여 갑작스러운 심장 문제나 발작을 측정하는 등의 실용적인 문제들을 연구
문제점: 특정 질병을 가진 환자에게만 적용 가능하며, 장기적인 측정의 어려움
현대의 의료 시계열: 웨어러블 센서(wearable sensor) 기술의 발전으로 많은 사람들이 일상생활에서 자신의 건강 상태를 측정할 수 있음
일기예보
기상에 대한 탐구는 오래전부터 시작됨(아리스토텔레스, Meteorologica, BC 340)
르네상스 시대: 기상 데이터 수집을 위한 도구들이 발명됨(예: 기압계)
일기예보(weather forecast): 1850년대의 영국 기상국의 국장인 로버트 피츠로이(Robert FitzRoy)가 최초로 제안
일기예보를 신문에 인쇄하는 방식을 정립
전신(telegraph)을 통해 여러 지역의 대기 상태를 시계열 형태로 모을 수 있었음 → 지리적으로 다른 위치의 날씨를 기반으로 현지 날씨를 예측하는 것이 가능해짐(1870년대)
현대의 일기예보: 전 세계 수천 개의 기상관측소에서 측정한 정밀한 데이터에 기반하여 예보
1861년, 세계 최초로 신문에 수록된 일기 예보 (Times)
The telegraph, Internet's Grandpa (Kaspersky)
경제성장 예측
역사적인 경제 재앙: 제국주의 열강들의 디플레이션(19세기 말), 세계 대공황(20세기 초) → 경제 예측에 대한 필요성
경제학자들은 경제를 기상 변화와 같은 순환 시스템으로 보고 이를 예측하기 위한 연구를 시작(예: 경기순환 분석)
20세기 초부터 경제 데이터를 추적하기 위한 공공 및 민간 기관들이 설립됨 → 다양한 경제 지표들을 개발하고 대중들에게 공개 (예: US Business Cycle Expansions and Contractions)
금융시장 분석: 민간 기관에서 정부가 기록한 금융 데이터의 사본을 만들고 관리하기 시작하면서 금융 시장 분석 분야가 체계적으로 발전됨
금융시장 분석에는 매우 복잡하고 자체적인 시계열 분석 방법을 사용 → 최근에는 머신러닝 기법들이 활발하게 적용되고 있음
리차드 데니스(Richard Dennis): 기계적 트레이딩(mechanical trading)의 선구자 → 오늘날에는 시스템 트레이딩, 알고리즘 트레이딩, 퀀트(quant) 투자 등의 다양한 용어로 사용됨
퀀트 투자의 대가 제임스 사이먼스 (르네상스 테크놀로지)
1988년부터 2018년까지 연 평균 66%의 수익율을 기록한 메달리온 펀드. 1$(1988년) → 20,000$(2018년)
천문학
농경시대부터 기후에 영향을 주는 천체의 움직임을 연구하기 시작했음(예: 흑점 기록, 중국 BC 800년경)
지난 100년간 천문학에서 흥미롭게 다뤘던 연구 주제들이 시계열과 관련됨
예: 은하 거리 추정에 필요한 다양한 별의 움직임 및 사건(예: 초신성)
최근에는 전파 망원경 등의 첨단 관측 장비를 통해 짧은 주기의 정밀한 천문 데이터들이 쏟아지고 있음 → 시계열 분석에 기반한 연구들이 활발하게 진행될 예정
초신성 밝기에 대한 시계열. 이를 통해 초신성이 폭발하는 과정을 구체적으로 상상할 수 있게 되었음

1.2 시계열 분석의 도약

조지 박스(George Edward Pelham Box) 통계학의 선구자. 박스-젠킨스 방법(Box-Jenkins method) 발명 현실을 정확히 반영하는 모델은 존재하지 않지만, 일부 모델은 유용하다
적절한 시계열의 모델을 만드는 것이 데이터에 적합한 모델을 찾는 일반적인 접근법
ARIMA 모델로 예측한 비행기 탑승자 수 추이
박스-젠킨스 방법: ARMA 또는 ARIMA 모델의 최적 파라미터를 선택하기 위한 기법
ARMA(Autoregressive Moving Average)
ARIMA(Autoregressive Integrated Moving Average)
가스로에서 방출된 이산화탄소 농도의 데이터에 적용
시계열 예측 문제가 중요해지면서 다양한 컴피티션이 개최됨
M 컴피티션: 100개의 데이터셋(70년대초) → 1,000개(70년말) → 3,000개(90년대)
컴퓨팅 성능의 발전을 통해 대규모 시계열 데이터를 더 쉽게 분석하는 것이 가능해짐
GPU & 머신러닝 & 사물인터넷 → 데이터의 양, 품질, 분석 결과의 정확성 모두 비약적으로 개선

1.3, 1.4 통계적/머신러닝 시계열 분석의 기원

1920년대 자기회귀 모델(Autoregressive Model) 연구를 통해 시계열 분석이 통계학 내에서 독립적인 학문으로 인식됨
우드니 율(Udny Yule): 자기회귀 모델을 흑점 데이터 분석에 적용
앙상블 기법: “최고의” 모델 한 개 보다는 “여러 모델”의 예측을 결합하는 것이 더 좋다.
“The Combination of Forecast”, 1969년
1980년대 초부터 다양한 시계열 영역에서 머신러닝 기법이 사용되기 시작
이상탐지(anomaly detection): 시스템 보안에 적용하여 해커 및 침입을 식별
동적시간왜곡(dynamic time warping): 시계열 유사도 측정
재귀적 신경망(RNN: recurrent neural network): 시계열 모델링이 가능한 인공 신경망 모델