3. Granger Causality

Granger Causality : A Review and Recend Advances

- 다양한 분야에서 시계열 간의 상호작용을 이해하는 것이 중요

- 우리는 시계열 간의 인과적 상호작용을 이해하고자 하지만 실험이 불가능하고 현상에 대한 기계적 모델도 없는 상황에서 관측 데이터에 기반한 추론만 가능하다는 제한이 존재

- 이러한 경우, 시계열에 내재된 시간 순서성을 활용해, 과거가 미래에 영향을 준다는 방향으로 제한된 인과적 설명을 이끌어내는 프레임워크 제안

- 시계열 $y_{t}$ 의 과거 값이 다른 시계열 $x_{t}$ 의 미래값을 얼마나 잘 예측할 수 있는지에 기반하여 인과성의 개념을 제안

제한된 모델 : $Y_{t}=+ _{i=1}^{p} iY{t-i} + _t $
- 과거의 Y 값만 사용하여 $Y_t$를 예측하는 모델
확장된 모델 : $Y_{t}=+ {i=1}^{p} iY{t-i} + {j=1}^{q} Y_jX_{t-j} + _t $
- 과거의 Y값 뿐만 아니라 X의 과거 값까지 사용하여 예측

- 제약

real-valued time series with
linear dynamics dependent on
a knwn number of past lagged observations, with
observations available at a fixed, discrete sampling rate that matches the time scale of the causal structure of interest

- “Granger Causality”는 단순한 예측 가능성을 의미

Granger 에서 말하는 인과성은 진정한 인과관계 X
Y의 과거 정보를 포함해서 X의 예측오차가 줄어들면 Y가 X의 Granger causality
- $H<t$ 시간 t 이전의 모든 정보 집합
- $P(X_t|H<t)$ 해당 정보 집합을 통한 x의 최적의 예측
- $var(x_t-P(x_t|H<t))$ $ < $ $var(x_t-P(x_t|H<t / y<t)$

- VAR 모델 기반 Granger 모델

$A^0x_t=\sum_{k=1}^{d}A^kX_{t-k}+\epsilon_{t}$
- 시간 t에서의 변수 벡터를 $X_{t} =(x_1t, x_2t, ...x_pt)^T$
- $A_{k}$는 시차(lag) : k에 대한 회귀계수 행렬
- $\epsilon_t$ : 백색 잡음

- Granger 인과성의 기본가정(제한점) <- 분석을 하기위해선 아래가정 충족해야함

- 초기 Granger 인과성 검증 방법

이변량 모델
- $a_{0x}*x_t=\sum_{k=1}^{d}a^{(k)}_{xx}x_{t-k}+\sum_{k=1}^{d}a^{(k)}_{xy}y_{t-k}+e_{t,x}$
- $a_{0y}*y_t=\sum_{k=1}^{d}a^{(k)}_{yy}y_{t-k}+\sum_{k=1}^{d}a^{(k)}_{yx}x_{t-k}+e_{t,y}$
Reduced Model, Full model을 비교해 F검정 실시
- $F=\frac{(RSS_{red}-RSS_{full}/(r-s))}{RSS_{full}/(T-r)}$
- 귀무가설 $H_{0} : Y_{t}는 X_{t} granger 원인이 아니다(Y_j=0)$
- 대립가설 $H_{1} : Y_{t}는 X_{t} granger 원인이다(Y_j\neq0)$

- 전통적으로 선형 VAR 모델 가정으로 기반

하지만 현실의 시스템은 훨씬 복잡하고 전통적 프레임은 한계점 존재
- 이변량 모델을 사용하여 고차원 데이터는 정확하 분석 어려움
- 비선형성과 비정규성 문제(VAR모델은 이러한 특성 반영 불가)
- 불규칙 샘플링 및 관측 데이터 문제(고정된 시간 간격으로 수집, 현실에서는 다양한 주기로 변화 발생)

- 해결을 위한 현대의 시도

네트워크 Granger 인과성 : 여러개의 시계열 변수를 동시에 고려하여 다변량 인과성 분석
비선형, 고차원 데이터 처리 : Lasso 및 Group Lasso 를 활용한 고차원 VAR모델, 딥러닝, 머신러닝 기법으로 비선형 인과성 분석
비정상 시계열 및 혼합 주파수 데이터 처리 :
- 현실에서는 시계열 데이터가 동일하게 수집되지 않는 문제 해결기법 개발
- 다중 시간 척도에서 데이터를 통합하여 Granger 인과성 분석

- 네트워크 기반 Granger Causality

다변량 시계열에서 여러 변수 간의 상호작용을 고려하여 인과관계 분석
- 이변량이 아닌 전체 변수(외생변수들의 영향 고려) 네트워크를 분석
- VAR 모델 활용 * $x_t=\sum_{k=1}^{d}A^kX_{t-k}+\epsilon_t$ * $A_k$의 특정요소가 0이 아니면 해당 변수간의 인과성이 존재한다고 판단

- 고차원 VAR 모델에서 변수 선택

- 이후의 시도들