[독서 메모] 1-2 Time Series Analysis of Discourse - Dennis Tay
2장: The Basic Logic and process of TSA (p.18)
The general nature of TSA
시계열은 하나의 변수에 대해 균일한 시간 간격으로 연속 측정한 모음을 뜻하며, 주로 주식, 매출, 출생률 등에서 쓰인다.
시계열 분석은 전체를 하나의 수식으로 표현하고, 미래에 대한 예측을 하는 것을 목적으로 한다.
시계열은 개념적으로 회귀 분석과 유사하다. 시간은 정해진 시간간격을 수준으로 하는 독립변수이며, 각각의 시간대에 관측되는 현상은 종속변수이다. 그러나 이 측정값들 사이에 관계가 존재한다고 전제한다는 점에서 차이를 가진다.
이번 장의 순서는 다음과 같다.
- 왜 회귀분석이 담화분석에 적합하지 않은지를 규명하고
- 일반적인 금융 시계열 데이터의 구성 요소를 설명한 뒤,
- Box-Jenkins TSA 기법이 담화 분석에 어떻게 활용될 수 있는지를 설명한다.
- 마지막으로, TSA를 활용할 수 있는 SAS 소프트웨어를 소개한다.
A caveat on linear regression models
많은 언어학 연구에서 측정이 서로 독립적이라는 가정 하에 표준 선형 모델이 활용된다.
이 모델은 데이터로부터 average fit을 도출하고, 이를 중심으로 한 분포에 따를 것이라고 가정한다.
일반적으로 데이터가 일견 선형을 띠는 것으로 보이면, 담화 분석은 표준 선형 분석을 진행할 가능성이 높다.
그러나 여기에서는 잔차(Residual Diagnostics)가 무시된다.
잔차(Residual)는 예측값과 관측값의 차이를 말하며, 따라서 회귀 모델의 오차를 반영한다.
만약 회귀 모델이 정확하게 데이터 패턴을 설명한다면, 잔차 사이에서는 어떠한 패턴도 발견되어선 안된다.
이를 시험하는 것이 Residual Diagnostics이다. 전체적인 추세가 회귀 모델에 의해 설명된다 할지라도, 직후에 대한 예측을 위해서는 잔차의 국부적인 추세가 필요할 수도 있다.
Components of time series data
Raw Data는 여러 시계열 요소들(trend, seasonality, cyclic changes, remainder)로 분해되어 제시될 수 있다.
금융 시계열 데이터에서 가장 대표적인 요소는 추세(trend)이다.
이는 1년이 넘는 장기간에 걸친 점진적 증가/감소를 뜻한다.
추세는 선형적/결정론적(deterministic)일 수도 있지만, 때로는 예측불가/확률적(stochastic) 교란에 의해 방향을 바꾸거나 비선형적일 수도 있다.
또다른 요소로는 계절성(seasonality)이 있다.
이는 주로 1년보다 짧은 주기동안 반복되는 단기적 변동을 뜻한다.
계절성은 어떤 의미에서 아주 결정론적이다. 예를들어 주기적인 세일은 매년 매출 증가로 이어질 것이다.
이와 유사한 것은 cyclic behavior인데, 이는 장기 변동으로, 계절성보다 변동성이 크고 따라서 예측가능성이 낮다.
대표적인 예시가 5~7년에 걸쳐 일어나는 것으로 여겨지는 business cycle이다.
상기된 요소들을 제거하면 남는 것이 불규칙 변동인 잔차이다.
잔차는 예측 불가능한 요소로서, 잔차가 클 수록 예측률이 떨어진다.
TSQ에서의 검증은 잔차 사이에 자기 상관이 더이상 유의미하게 존재하지 않음을 보이는 데에 있다.
TSA는 주로 yt = Ct + at의 덧셈 모델을 취한다.
yt는 시간 t에 대한 값이며, Ct는 시간 t에 대한 추세, 계절성, 주기성 요소이고, at는 t에서의 예측 불가능한 요소이다.