8. TRACE: 5D Temporal Regression of Avatars With Dynamic Cameras in 3D Environments(CVPR’23)

Author

이상민

Published

January 11, 2026

TRACE: 5D Temporal Regression of Avatars With Dynamic Cameras in 3D Environments

1. Problems

1) 기존 3D human pose estimation 방법들의 한계

  • 단일 프레임만 처리, 카메라 좌표계에서만 추정
  • 사람들 추적하지 못하고 전역 궤적 복원 불가
  • 움직이는 카메라에서 인간과 카메라의 움직임이 얽혀있어 어려움
  • 심한 occlusion 발생 시 추적 실패

2) 핵심 아이디어

  • 5D = 3D 공간 + 시간 + indenity
  • 시간과 신원을 포함전 holistic(전체론적인) 표현을 도입하여 비디오 전체 정보 활용

2. Method

1) Temporal Feature Extraction (시간적 특징 추출)

  • 이미지 백본: 단일 프레임 특징 추출
  • 모션 백본: 인접 프레임 간 optical flow 계산
  • Temporal feature propagation: ConvGRU + Deformable convolution으로 장단기 모션 특징 융합

2) 3D Motion Offset Map (새로운 발명)

  • 카메라 좌표계에서 프레임 간 사람의 3D 위치 변화를 나타내는 3D 벡터 맵
  • 이전 프레임에서 현재 프레임으로의 각 피사체 이동을 명시적으로 모델링
  • 다중 피사체 간 시간적 연관성 구축

3) Memory Unit (메모리 유닛)

  • 장기 가림 상황에서도 지속적인 추적 가능
  • 각 피사체의 상태를 저장하고 업데이트
  • Hungarian matching으로 프레임 간 매칭 수행
  • 3단계 프로세스: 초기화 → 매칭 → 업데이트

4) World Motion Map (또 다른 새로운 발명)

  • 6D 벡터: 전역 좌표계에서의 3D 방향 + 3D 이동 오프셋
  • 카메라 좌표계의 궤적을 전역 좌표계로 변환
  • 첫 프레임을 기준으로 누적하여 전역 3D 궤적 생성