9. Humans in 4D: Reconstructing and Tracking Humans with Transformers(ICCV’23) – paper_code

Author

이상민

Published

January 12, 2026

Humans in 4D: Reconstructing and Tracking Humans with Transformers(ICCV’23)

1. 연구 목적 및 기여

1) Problem

single image에서 3D human mesh를 reconstruction하고, 비디오에서 시간에 따라 추적하는 완전한 트랜스포머 기반 접근법 제시

2. Reconstructing People(HMR 2.0, transformer 기반)

1) Architecture

Vision Transformer(ViT-H/16) : 이미지를 패치로 분할하여 토큰화
트랜스포머 디코더 : SMPL 쿼리 토큰에 cross-attention 수행
출력 : SMPL 파라미터 (pose \(\theta\), shape \(\beta\), camera \(\pi\))

2) 특징

도메인 특화 설계 없이 end-to-end 학습
특이한 자세와 다양한 시점에서도 강건한 성능
기존 HMR의 완전한 트랜스포머화

Loss function

\(\mathcal{L} = \mathcal{L}_{smpl} + \mathcal{L}_{kp3D} + \mathcal{L}_{kp2D} + \mathcal{L}_{adv}\)
SMPL 파라미터 + 3D/2D keypoint + Adversarial prior

3. Tracking People(4D Humans : 비디오에서의 추적 시스템)

1) 구조

HMR 2.0으로 각 프레임에서 3D 복원
3D 공간에서 추적 수행(Phalp 기반)
포즈, 위치, 외형 정보를 활용한 데이터 연관

2) 장점

다중 인물 처리 가능
Occlusion 상황에서도 신원 유지
Amodal completion으로 누락된 검출 보완

4. Ablation

1) ResNet-50 vs. ViT-H

ViT-H 대폭적 성능향상
사전학습 방식
- Random init : 별로
- MAE사전학습 : 좋음
- MAE + 2D keypoint : best

2) 데이터

기본 데이터셋 \(\rightarrow\) +AVA \(\rightarrow\) + 모든 데이터
데이터 증가할 때마다 2D 정렬 성능 향상
특이한 자세 처리 능력 개선

5. 한계점

1) SMPL 모델 제약

손과 얼굴 표정 미포함
연령대 다양성 제한 (유아, 어린이)

2) 인물 간 상호작용

개별 처리로 인한 세밀한 접촉 표현 어려움

3) 낮은 해상도

입력 해상도가 낮을 때 성능 저하

4) 좌표계

카메라 프레임 기준 (월드 좌표계 미고려)