3. Granger Causality

Author

이상민

Published

March 30, 2025

링크 : Granger Causality

Granger Causality : A Review and Recend Advances

- 다양한 분야에서 시계열 간의 상호작용을 이해하는 것이 중요

- 우리는 시계열 간의 인과적 상호작용을 이해하고자 하지만 실험이 불가능하고 현상에 대한 기계적 모델도 없는 상황에서 관측 데이터에 기반한 추론만 가능하다는 제한이 존재

  • (미래를 모르기 때문에)

- 이러한 경우, 시계열에 내재된 시간 순서성을 활용해, 과거가 미래에 영향을 준다는 방향으로 제한된 인과적 설명을 이끌어내는 프레임워크 제안

- 시계열 \(y_{t}\) 의 과거 값이 다른 시계열 \(x_{t}\) 의 미래값을 얼마나 잘 예측할 수 있는지에 기반하여 인과성의 개념을 제안

  • 제한된 모델 : $Y_{t}=+ _{i=1}^{p} iY{t-i} + _t $
    • 과거의 Y 값만 사용하여 \(Y_t\)를 예측하는 모델
  • 확장된 모델 : $Y_{t}=+ {i=1}^{p} iY{t-i} + {j=1}^{q} Y_jX_{t-j} + _t $
    • 과거의 Y값 뿐만 아니라 X의 과거 값까지 사용하여 예측

- 제약

  • real-valued time series with
  • linear dynamics dependent on
  • a knwn number of past lagged observations, with
  • observations available at a fixed, discrete sampling rate that matches the time scale of the causal structure of interest

- “Granger Causality”는 단순한 예측 가능성을 의미

  • Granger 에서 말하는 인과성은 진정한 인과관계 X
  • Y의 과거 정보를 포함해서 X의 예측오차가 줄어들면 Y가 X의 Granger causality
    • \(H<t\) 시간 t 이전의 모든 정보 집합
    • \(P(X_t|H<t)\) 해당 정보 집합을 통한 x의 최적의 예측
    • \(var(x_t-P(x_t|H<t))\) $ < $ \(var(x_t-P(x_t|H<t / y<t)\)

- VAR 모델 기반 Granger 모델

  • \(A^0x_t=\sum_{k=1}^{d}A^kX_{t-k}+\epsilon_{t}\)
    • 시간 t에서의 변수 벡터를 \(X_{t} =(x_1t, x_2t, ...x_pt)^T\)
    • \(A_{k}\)는 시차(lag) : k에 대한 회귀계수 행렬
    • \(\epsilon_t\) : 백색 잡음

- Granger 인과성의 기본가정(제한점) <- 분석을 하기위해선 아래가정 충족해야함

  • 연속형 시계열
  • 선형성
  • 이산된 시간
  • 고정된 시차
  • 정상성
  • 완전한 관측(오차가 없어야함)
  • 관련된 모든 변수가 포함되어야함

- 초기 Granger 인과성 검증 방법

  • 이변량 모델
    • \(a_{0x}*x_t=\sum_{k=1}^{d}a^{(k)}_{xx}x_{t-k}+\sum_{k=1}^{d}a^{(k)}_{xy}y_{t-k}+e_{t,x}\)
    • \(a_{0y}*y_t=\sum_{k=1}^{d}a^{(k)}_{yy}y_{t-k}+\sum_{k=1}^{d}a^{(k)}_{yx}x_{t-k}+e_{t,y}\)
  • Reduced Model, Full model을 비교해 F검정 실시
    • \(F=\frac{(RSS_{red}-RSS_{full}/(r-s))}{RSS_{full}/(T-r)}\)
    • 귀무가설 \(H_{0} : Y_{t}는 X_{t} granger 원인이 아니다(Y_j=0)\)
    • 대립가설 \(H_{1} : Y_{t}는 X_{t} granger 원인이다(Y_j\neq0)\)

- 전통적으로 선형 VAR 모델 가정으로 기반

  • 하지만 현실의 시스템은 훨씬 복잡하고 전통적 프레임은 한계점 존재
    • 이변량 모델을 사용하여 고차원 데이터는 정확하 분석 어려움
    • 비선형성과 비정규성 문제(VAR모델은 이러한 특성 반영 불가)
    • 불규칙 샘플링 및 관측 데이터 문제(고정된 시간 간격으로 수집, 현실에서는 다양한 주기로 변화 발생)

- 해결을 위한 현대의 시도

  • 네트워크 Granger 인과성 : 여러개의 시계열 변수를 동시에 고려하여 다변량 인과성 분석
  • 비선형, 고차원 데이터 처리 : Lasso 및 Group Lasso 를 활용한 고차원 VAR모델, 딥러닝, 머신러닝 기법으로 비선형 인과성 분석
  • 비정상 시계열 및 혼합 주파수 데이터 처리 :
    • 현실에서는 시계열 데이터가 동일하게 수집되지 않는 문제 해결기법 개발
    • 다중 시간 척도에서 데이터를 통합하여 Granger 인과성 분석

- 네트워크 기반 Granger Causality

  • 다변량 시계열에서 여러 변수 간의 상호작용을 고려하여 인과관계 분석
    • 이변량이 아닌 전체 변수(외생변수들의 영향 고려) 네트워크를 분석
    • VAR 모델 활용 * \(x_t=\sum_{k=1}^{d}A^kX_{t-k}+\epsilon_t\) * \(A_k\)의 특정요소가 0이 아니면 해당 변수간의 인과성이 존재한다고 판단

- 고차원 VAR 모델에서 변수 선택

  • 외생변수 포함하는 경우
    • FAVOR
    • m차원의 요인 \(f_t\)를 포함
    • 직접 관측 X, 최대가능도법 MLE, PCA로 추정
  • 내생변수가 매우 많은 경우
    • 축소 추정으로 VAR 학습
    • 베이지안 방법론 -> 큰 계수 줄임
    • Lasso 와 같은 희소성 기법 활용
      • 특정 계수 \(A_k\)를 0으로 강제하여 중요하지 않은 변수 제거
      • 튜닝 파라미터 \(\lambda \geq 0\) 이 희소성 수준 조절
      • 값이 클수록 많은 계수 0으로
      • $A^k_{ji} $인 k가 있어야함
    • VAR 모델 손실함수를 정규화하여 해결하는 방식

- 이후의 시도들

  • Basu et al.
  • Davis et al