1. 요약
-
목표
- 비선형 시계열 데이터에서
Granger Causality
를 추론하기 위해, 신경망 기반 모델(MLP,LSTM)을 사용하고,sparsity penalty
(희소성 유도 정규화)를 도입한 새로운 방법을 제안
-
주요 내용
- Granger causality는 어떤 변수의 과거가 다른 변수의 미래를 예측하는데 도움이 되는지 보는 것
- 기존의 대부분의 방법은 선형 모델(VAR) 사용 \(\to\) 비선형관계 잡지 못함
- 시간 지연을 명시적으로 지정해야함 \(\to\) 너무 작으면 긴 시간지연에서의 Granger인과관계 누락, 너무 크면 과적합 발생 가능
- Component-wise neural nets(각 출력 변수마다 독립적인 MLP 또는 LSTM) + structured sparsity penalty를 통해 해석 가능한 인과 구조를 학습
- 특히 Group Lasso, Hierarchical Group Lasso 등을 통해 특정 변수의 영향력 제거 \(\to\) 과적합 방지, 시간 지연 자동으로 선택
- DREAM3 유전자 네트워크, 인간 동작 데이터 등에 적용하여 뛰어난 성능을 보임
2. Linear Granger causality
-
Granger causality : 한 시계열의 과거 값이 다른 시계열이 미래 값을 예측하는데 도움이 되는지를 평가하는 개념
-
VAR(Vector Autogressive Regression)모델
- Granger causality를 분석하는 가장 기본적인 방법
- 시계열 데이터 표현 \(x_t=\sum_{k=1}^{K}A^{(k)}x_{t-k}+\epsilon_t\)
- \(x_{t}\) : 시점 t에서의 다변량 시계열 데이터(p개의 변수 포함) (p x 1)
- k : 최대 시차
- \(x_{t-k}\) : 변수들의 과거값 행렬 (p x k)
- \(A^{(k)}\) : 시차 k에서의 각 변수간의 Granger 계수행렬(p x p크기)
- \(e_t\) : 평균이 0인 잡음
-
인과성 판단 기준 - 특정 시계열 j가 다른 시계열 i의 미래를 예측하는데 기여하는지를 확인
- \(A^k_{ij}=0\)이면, 시계열 j는 시계열 i에 대해 Granger 비인과적
- \(A^k_{ij}\neq 0\)이면, 시계열 j는 시계열 i에 대해 Granger 인과적
-
장점
- 간단하고 해석이 쉬움
- 수학적으로 정립되어있고 검정도 가능
-
단점(\(\to\) Neural Granger 등장배경)
- 선형성 가정
- 현실 데이터는 대부분 비선형, 선형 구조만 모델링 가능
- 고정된 lag 수 K 지정
- 어떤 시계열은 짧은 lag, 어떤 시계열은 긴 lag에 반응할 수 있는데
- 모두 동일한 K를 적용함
- 고차원 문제에 취약
- 변수가 많아지만 VAR파라미터 수도 폭발적 증가
- 과적합 위험
-
희소성 유도 패널티
- 모델의가중치 중 일부를 정확히 0으로 만드는 정규화 기법
- 모델이 불필요한 입력을 자동으로 제거하도록 유도하는 제약
- 모든 변수들이 서로 영향을 주지 않음, 대부분의 관계는 0인 것이 보통
-
희소성 유도 패널티 적용
- 너무 많은 변수를 고려하면 과적합문제 발생 \(\to\) Lasso,Group Lasso 패널티를 적용하여 불필요한 계수 0으로
- Group Lasso 패널티 : 결과적으로 희소한 Granger 인과 네트워크를 학습
- \(min_{A(1),...,A(K)}\sum_{t=K}^{T}||x_t-\sum_{k=1}^{K}A^{(k)}x_{t-k}||^2_2+\lambda\sum_{ij}||(A^{(1)}_{ij},...,A^{K}_{ij}||_2,\)
- 첫 항 : 예측오차 최소화
- 둘째 항 : 정규화 항 = 희소성 유도 패널티
- 그룹라쏘는 각 시계열 쌍(i,j)에 대해 모든 시간지연 k에 해당하는 계수들을 하나의 그룹으로 보고 동시에 0으로 수축시킴
- 입력변수 j의 모든 lag가 출력변수 i에 영향을 주지 않으면 모두 0이 됨 \(\to\) Granger 인과성 없음
- \(\lambda\) : 패널티 강도(크면 더 많은 항이 0)
- Hierarhical Group Lasso 패널티 : 단순히 인과관계 유무만 판단하는 것이 아니라 인과관계 lag도 자동으로 선택해줌
- Group Lasso 패널티 : 결과적으로 희소한 Granger 인과 네트워크를 학습
3. Models for Neural Granger Causality
3.1 Adapting Neural Networks for Granger Causality
-
비선형 자기 회귀 모델(Nonlinear Autogressive Model, NAR)
- NAR : 기존의 선형 VAR보다 훨씬 유연하게 과거-현재 관계 표현가능
- \(x_t=g(x_{<t1},...,x_{<tp})+\epsilon_t\)
- \(x_t\) : 시점 t에서의 다변량 시계열 데이터
- \(x_{<t1},...,x_{<tp}\) : \(x_{tj}\) 시계열 j의 과거값들
- \(g(*)\) : 비선형 함수(ex: 신경망)
- \(e_t\) : 평균이 0인 잡음(noise)
-
Problem
- 블랙박스 문제 : MLP/LSTM은 강력한 예측성능을 가지지만 전체 시계열을 한번에 모델링(출력 \(x_t\)를 하나의 신경망으로 학습) \(\to\) 특정 입력 \(x_j\)가 특정 출력 \(x_i\)에 어떤 영향을 주는지 분리 어려움
- 모든 출력이 같은 시간지연(lag) 에 의존한다고 가정 : 전통적인 VAR모델에서는 최대 시차 k를 설정, 일반적 NAR 딥러닝 모델에서는 입력으로 같은 시간지연만 넣음
- 모든 시계열이 지난 3시점만 (t-1, t-2, t-3)
- 하지만 어떤 변수는 짧은 lag, 어떤 변수는 긴 lag에 의존할 수 있음
- \(\to\) 현실적인 구조 반영 못함
-
해결방법
- cMLP,cLSTM : Component-wise Neural Network
- 각 출력 변수 \(x_{ti}\)마다 독립적인 신경망 모델 \(g_i\)를 사용하여 입력변수와의 관계를 학습
- 출력을 하나하나 분리해서 학습
- 이러한 구조를 component-wise architecture(그래서 모델 이름 cMLP,cLSTM)
- 장점 : 어떤 입력 시계열이 출력에 영향을 주는지 쉽게 해석 가능, 각 \(g_i\)함수에만 집중하면 되기 때문에 인과 추론이 쉬워짐
-
Granger Non-Causality
- 시계열 j가 시계열 i의 Granger 원인이 아니다 \(\leftrightarrow\) \(g_i\) 함수가 \(x_j\)의 과거에 전혀 의존하지 않음
- \(g_i(x_{t1},...,x_{tj},...x_{tp}) = g_i(x_{<ti},...,x^{'}_{<tj},...,x_{tp})\)
- 여기서 \(x_{<tj} \neq x^{'}_{<tj}\)임에도 결과는 같음
- 즉, \(x_j\)의 과거가 바뀌어도 \(x_{ti}\) 예측에 아무 영향이 없음
3.2 Sparse Input MSPs(cMLP)
-
구조
- 각 출력 시계열 \(x_i\) 에 대해 별도의 MLP \(g_i\) 학습
- 희소성(sparsity) 을 유도해서 관련 없는 입력은 가중치를 0으로
- 각 출력변수 \(x_{ti}\)는 다음과 같이 예측
- \(x_{ti}\) = \(g_i(x_{<t})+\epsilon_{ti}\)
- \(g_i(*)\) : MLP 함수
- 입력 : 시간 지연 K 만큼 고려된 전체 시계열의 과거 \(x_{t-1}, x_{t-2},...x_{t-k}\)
- 출력 : 하나의 시계열 값 \(x_ti\)
- L개의 층(은닉층 L-1개, 출력층 1개)
- 첫 번째 은닉층의 가중치가 가장 중요함 \(\to\) 여기에 인과 구조가 반영
- 첫 층의 가중치 \(W_1\)은 시간 지연별로 나눔
- \(W^1={W^{1,1}, W^{1,2}, ..., W^{1,K}}\)
- 지연 k별 가중치 \(W^{1,k}\) \(\to\) lag별 효과 분석 가능
-
Granger causality 판별 기준
- 입력 \(x_j\)의 과거값들이 출력 \(x_i\)에 영향을 주지 않는다면, 첫 층의 해당 입력에 연결된 모든 가중치가 0이어야함
- \(W^1_{:,j}=0\) for all lags \(\to\) 시계열 j는 i의 Granger 원인이 아님
- 그래서 가중치 0으로 만드는
penalty
도입!
- Group Lasso : 입력 시계열 j의 모든 지연에 대한 가중치를 하나의 그룹으로 보고, 그룹 전체를 0으로 만듦 \(\to\) 시계열 j 전체를 삭제할지 말지 결정
- Sparse Group Lasso
- 더 유연하고 미세한 제어 가능
- 일부 시계열은 완전 제거, 일부는 특정 lag만 유지
- \(\alpha\) : 전체 sparsity vs lag 선택간의 조절 파라미터
- Hierarchical Group Lasso
- 특정 lag 이상은 모두 제거되도록 하는 penalty
- lag 선택이 자연스럽게 이루어짐, 가중치 0인 관련없는 lag 자동으로 제거
- 만약 lag 3의 가중치를 없애려면 lag 4,5…도 자동으로 없어져야함
- \(\to\) lag를 크게 설정해도 됨
3.3 Sparse Input RNNs
-
cLSTM
- 입력 : 전체 시계열 \(x_t ∈R^p\)
- 출력 : 오직 한 변수 \(x_{ti}\) 만 예측하는 신경망 \(g_i\)
- \(f_t = \sigma(W_fx_t+U_fh_{t-1})\)(forget gate)
- \(i_t = \sigma(W_inx_t+U_{in}h_{t-1}\)(input gate)
- \(o_t = \sigma(W_ox_t+U_oh_{t-1})\)(output gate)
- \(C_t=f_t \odot C_{t-1}+i_t \odot tanh(W_cx_t + U_ch_{t-1})\) (candidate cell state)
- \(h_t=o_t\odot tanh(C_t)\)
- \(C_t\) : 셀 상태
- \(x_t\) : 현재 입력(전체 시계열)
- \(h_t\) : 현재 hidden state
- \(W_f, W_{in}, W_o,W_c\) : 입력 가중치 행렬들 각각 shape은 h(hidden unnit 수) X p(변수 수)
- 인과 관계는 이 입력 가중치들(W : shape 4h x p)을 통해서 표현됨!!
-
Granger causality 추론 방법
- 시계열 j가 출력 \(x_{ti}\)에 영향을 주지 않으려면 입력 가중치 행렬 W의 j번째 column이 모두 0이 되면 됨 \(\to\) Granger 인과하지 않다
- \(W_{:,j}=0\) \(\to\) 시계열 j는 i의 Granger 원인이 아님
- Group lasso 주로 사용
-
cMLP 와 cLSTM 차이
- cMLP
- 고정된 lag(지정 필요)
- 계산구조 - 완전 연결 구조 고정된 길이의 과거 시점을 한번에 입력
- 첫 층 가중치로 인과 해석
- cLSTM
- 장기 기억 자동 처리 (lag지정 필요없음)
- 계산구조 - 순환 구조 입력이 시간적으로 순차적으로 들어감
- 입력 가중치 W로 인과 해석
4. Optimizing the Penalized Objectives
4.1 Optimizing the Penalized cMLP Objective
-
최적화 방법 : Proximal Gradient Descent (proximal : 중심의)
- 희소성 penalty 미분 불가능 or , 정확이 0이되는 가중치 만들기 어려움 \(\to\) sparsity를 정확히 유도하기 어려움
- Proximal Gradient는
가중치가 딱 0이 되도록
업데이트 - 알고리즘 구조
- 현재 가중치 \(W^m\)에 대해 손실함수 \(L(W)\)의 gradient 계산
- gradient만큼 이동(평범한 업데이트)
- proximal 연산(prox)으로 sparsity penalty를 반영한 업데이트(정규화 적용)
- prox 연산은 각 penalty종류에 따라 다르게 정의
- Group Lasso : 단순 L1 정규화 column vector 전체를 soft-Thresholding
- Sparse Group Lasso : 먼저 개별 lag별 soft-threshold \(\to\) 전체 vector에 soft-threshold
- Hierarchical Group Lasso : lag가 높은 그룹부터 차례대로 soft-threshold적용
-
Soft-thresholding
- 어떤 값 x에 대해 정규화 항을 적용한 후,
- 절댓값이 작으면 0이 됨(가중치 제거)
- 크면 그 크기만큼 줄어듦(패널티에 의한 수축)
\[ S_{\lambda}(x) = \begin{cases} x - \lambda & \text{if } x > \lambda \\\\ 0 & \text{if } |x| \leq \lambda \\\\ x + \lambda & \text{if } x < -\lambda \end{cases} \]
4.2 Optimizing the Penalized cLSTM Objective
-
최적화 방법 : 마찬가지로 미분 불가능하기 때문에 Proximal Gradient Descent
-
학습 방법
- Backpropagation Through Time(BPTT)로 gradient 계산(모든시점에 대해 그래디언트 계산)
- LSTM은 시간 축으로 펼쳐야 하니까 이걸 사용
- 시계열 길이가 길경우에 truncated BPTT사용 \(\to\) 길게 펼치지 않고 적당히 잘라서 계산
5. Comparing cMLP and cLSTM Models for Granger Causality
-
lag
(지연 시간) 처리 방식
- cMLP
- 최대
lag
K를 명시적으로 지정 - 하지만 hierarchical penalty 덕분에 불필요한 lag는 자동 제거
- 최대
- cLSTM
- lag지정할 필요 없음
- LSTM 내부 구조가 장기 의존성 자동 처리
-
사용 가능한 데이터량
- cMLP
- 최대 lag
K
때문에 훈련에 사용할 수 있는 데이터 수가T-K
- 최대 lag
- cLSTM
- cLSTM은 한 시점 전부터 사용 가능하므로 T-1개 데이터 사용 가능
- \(\to\) 작은 데이터셋에서는 cLSTM이 상대적으로 더 많은 학습데이터 활용 가능
-
sparsity penalty
- 둘 다 입력 가중치에 정규화를 걸어 Granger 인과성 없음 \(\to\) 가중치 0 유도
-
한계
- cMLP
- lag지정 잘못되면 성능 저하
- cLSTM
- 해석력은 좋으나 내부 구조 해석은 다소 복잡
6. Simulation Experiments
6.1 cMLP and cLSTM Simulation Comparison
-
목적
- 두 모델이 선형 및 비선형 시계열에서 Granger 인과 그래프를 얼마나 잘 복원하는지
- 사용한 시뮬레이션 데이터
- Lorenz-95 모델 : 비선형, 복잡한 시스템
- VAR(Vector AutoRegressive)모델 : 선형구조
6.1.1 Lorenz-96 모델 실험
- 비선형적 다변량 동적 시스템
- \(\frac{dx_{ti}}{dt}=(x_{t(i+1)}-x_{t(i-2)})x_{t(i-1)}-x_{ti}+F\)
- F : 혼란스러움 조절 파라미터 \(F∈\{10,40\}\)
- F=10 : 덜 복잡
- F=40 : 더 chaotic
- 차원(변수 개수) \(p=20\), 시계열 길이 \(T∈\{250,500,1000\}\)
- cMLP 모델은 시차 lag K=5, hierarchical penalty 사용
- 각 설정마다 5번 반복하고 평균을 냈음
- 평가 방식: (AUROC)
- 실제 인과구조 GC 와 예측해낸 인과구조 GC_est가 얼마나 유사한가
- 1: Granger 인과성 존재, 0: Granger 인과성 없음
- 변수 \(p\)개면 \(p^2\) 만큼의 인과쌍(자기 자신 제외하면 \(p^2-p\))
- \(p^2-p\) 에 대한 AUROC
- AUROC : treshold를 다양하게 바꿔가며
- x축 1-특이도 : False positive rate
- y축 민감도 : True positive rate
- 로 그린 ROC curve의 아래면적
Model | T=250 | T=500 | T=1000 |
---|---|---|---|
cMLP (F=10) | 86.6 | 96.6 | 98.4 |
cLSTM (F=10) | 81.3 | 93.4 | 96.0 |
cMLP (F=40) | 84.0 | 89.6 | 95.5 |
cLSTM (F=40) | 75.1 | 87.8 | 94.4 |
- 전반적으로 cMLP가 높은 정확도 (AUROC)-Grangr 인과구조 복원 정확도 를 보임
- 데이터가 많아질수록 성능이 비슷해짐
6.1.2 VAR 모델 실험
- Granger 인과 구조가 정확히 정의된 데이터셋 생성
- 모델 생성시 실제 lag가 lag 1 , lag 2인 두가지 데이터 생성 VAR(1), VAR(2)
- 선형 시계열 모델, 각 시계열이 다른 시계열들의 과거값에 선형적으로 영향을 받음
- \(x_t = A_1x_{t-1}+A_2x_{t-2}+...+A_kx_{t-k}+\epsilon_t\)
- \(A_k\) : 계수 행렬
- 차원 \(p=10\), 시계열 길이 \(T∈\{250,500,1000\}\)
- lag K=3
Model | T=250 (VAR1) | T=500 (VAR1) | T=1000 (VAR1) | T=250 (VAR2) | T=500 (VAR2) | T=1000 (VAR2) |
---|---|---|---|---|---|---|
cMLP | 91.6 | 94.9 | 98.4 | 84.4 | 88.3 | 95.1 |
cLSTM | 88.5 | 93.4 | 97.6 | 83.5 | 92.5 | 97.8 |
- 둘다 매우 높은 정확도, T가 클수록 성능 향상
- 적은 데이터일수록 cMLP가 안정적으로 좋음
- 데이터가 많으면 cLSTM이 좋을 때도 있음
-
해석
- VAR은 선형 구조이므로 cMLP가 더 적합한 구조
- LSTM은 비선형성 + 복잡한 Long-term 구조 학습에 강하지만 단순 선형 시계열에서는 오버피팅이 일어날 수도 있음
- 결론 : Granger인과 구조가 명확하고 선형적인 경우 cMLP가 더 정확하고 빠르게 복원가능
6.2 Quantitative Analysis of the Hierarchical penalty
-
목적
- Hierarchical Group Lasso penalty가 lag 선택과 Granger 인과관계 복원에 어떤영향을 주는지 정량적 평가하기 위한 실험
- Lorenz-95 시뮬레이션 데이터 사용
- 입력 lag수 K를 다르게 설정하여 세가지 패널티 방식 비교
- 모델 : cMLP
Lag K | 5 | 10 | 10 |
---|---|---|---|
GROUP | 88.1 | 82.5 | 80.5 |
MIXED | 90.1 | 85.4 | 83.3 |
HIER | 95.5 | 95.4 | 95.2 |
-
결과해석
- GROUP 과 MIXED는
lag
가 커질수록 성능 떨어짐- overfitting 또는 noise
- HIER은 거의 떨어지지 않음
- \(\to\) lag가 커도 불필요한 lag를 자동으로 제거
- 최적 lag 수를 지정할 필요 없어짐
7. DREAM challenge
-
목표
- cMLP + 정규화 를 통해 유전자 발현 시계열 데이터로부터 유전자 간 조절 네트워크를 복원할 수 있는지 평가
-
데이터셋 : DREAM3 simulation
- 비선형 동역학 + 은닉 변수 포함 \(\to\) Granger추정 매우 어려움
- 5개의 시뮬레이션 데이터셋 \(\to\) 각각 다른 실제 Granger 인과 그래프 존재
- 2개는 대장균 데이터..3개는 효모 데이터..
- 각 세트는 p=100개의 유전자 + 21시점에서 각시계열 46번 독립적인 반복추정 : 총시점 - 966
- 유전자 사이의 실제 조절네트워크(정답)제공
-
실험 설정
- 사용 모델 : cMLP
- lag : K = 5
- 희소성 정규화 : Hierarchical Group Lasso
- 평가 : AUROC
-
결과
- 매우 복잡하고 비선형적인 데이터임에도 불구하고 중요한 인과 연결들을 거의 정확히 복원
- lag가 중요한 경우에도 hierarchical penalty가 자동으로 lag 선택
8. Dependencies in human motion capture
-
목적
- 실제 인간의 움직임 데이터를 이용해 Neural Granger Causality 모델들이 신체 부위 간의 비선형적, 장기적 인과관계를 복원해보는 실험 \(\to\)
현실 데이터에서 잘 작동하는지 확인
-
분석하고자 한 것
우리가 알고 있는 신체의 구조적 연결
(관절 간 영향)과- 모델이 학습한
Granger 인과 구조가 유사한지 비교
-
데이터 : MoCap(Motion Capture)
- 한 사람의 걷는 동작을 포착한 데이터
- 24개의 고유한 신체 부위
- 여러 자유도로 측정하여 p=54개의 관절의 각도 및 신체 위치 시계열로 구성됨
- T = 2024개의 시점
-
실험 설정
- 모델 : cLSTM
- 은닉 유닛 수 : H=8
- 입력분할 : 전체 시계열 길이를 20짜리 조각으로 나누어 학습
-
결과 분석
- \(\lambda\)에 값에 따라 그래프를 그림
- saprsity가 강해질수록 연결이 줄어들고 핵심 인과구조만 남음
- \(\lambda\) 40까지 키웠을 때 남은 결과
- 양쪽 무릎 간 상호작용(오른쪽 무릎 \(\to\) 왼쪽 무릎, 왼쪽 무릎 \(\to\) 오른쪽 무릎)
- 팔 \(\to\) 팔꿈치 \(\to\) 손
- 손 \(\leftrightarrow\) 발 (ex: 발 끝이 닿는 동작 등에서 둘 사이의 인과)
- 몸통 중심 \(\to\) 사지 (몸의 움직임이 전체 팔다리로 전파)
- 시계열 기반 비선형 구조 학습이 실제 사람 움직임 분석에도 효과적이다
9. Conclusion
-
전체 프레임 워크 요약
- 출력변수마다 독립적인 신경망 구성 \(\to\) 인과관계 해석 쉬워짐
- 입력 가중치에 대한 희소성 정규화 적용 \(\to\) Granger 인과구조 추론 가능
-
성능 요약
- DREAM3 챌린지
- 기존 Granger 추론 기법보다 높은 정확도
- 사람 움직임 데이터
- 직관적으로 해석 가능한 신체 부위 간 의존성 구조를 복원
-
향후 연구 방향
- 구조화된 정규화 탐색
- hierarchical group lasso 를 최초로 신경망에 도입
- 트리구조, 네트워크 구조의 penalty 적용해볼 수도
- 더 강력한 모델로 확장가능
- MLP,LSTM 처럼 기초구조만 사용했지만 다른 딥러닝 모델로 확장가능