EgoSim: An Egocentric Multi-view Simulator and Real Dataset for Body-worn Cameras during Motion and Activity

作者: Dominik Hollidt, Paul Streli, Jiaxi Jiang, Yasaman Haghighi, Changlin Qian, Xintong Liu, Christian Holz

发布时间: 2025-02-27

来源: arxiv

研究方向: 人体运动捕捉与 Egocentric 视觉感知

主要内容

EgoSim 是一个用于模拟佩戴式摄像头的多视角模拟器,可以生成真实的人体运动渲染图像。MultiEgoView 是一个包含六台佩戴式摄像头和全身 3D 姿势的 egocentric 视频数据集。研究通过 EgoSim 和 MultiEgoView,训练了一个端到端的视频 3D 姿势估计网络,并分析了模拟数据和真实数据之间的差距。

主要贡献

1. EgoSim:一个易于使用、可定制的、高度逼真的模拟器,使用真实的人类运动作为输入,支持多视角佩戴式摄像头。

2. MultiEgoView:一个包含 119 小时虚拟环境和 5 小时真实世界运动的视频数据集,包含全身 3D 姿势和活动标注。

3. 基于学习的方法:使用多视角数据从视频中进行端到端的 3D 姿势估计任务。

4. 模拟数据与真实数据结合:通过分析模拟数据和真实数据之间的差距,展示了模拟数据在训练真实世界数据上的好处。

研究方法

1. EgoSim:使用 Unreal Engine 进行图像渲染,模拟佩戴式摄像头的运动和附件。

2. MultiEgoView:结合虚拟环境和真实世界数据,创建一个全面的 egocentric 视频数据集。

3. 端到端 3D 姿势估计网络:使用视觉 Transformer 模型进行姿势估计。

4. 实验分析:使用多种指标评估姿势估计的准确性,包括全局 MPJPE、PA-MPJPE、MTE、MRE、MJAE 和 Jerk。

实验结果

实验结果表明,使用 EgoSim 和 MultiEgoView 训练的模型在姿势估计方面取得了良好的效果。使用模拟数据和真实数据的组合,模型在姿势估计方面表现优于仅使用模拟数据或真实数据。此外,通过分析不同摄像头位置和场景转移的影响,研究提供了对模拟器和数据集的进一步理解。

未来工作

未来工作将包括改进 EgoSim 以支持更复杂的人体交互和更广泛的场景,以及利用 MultiEgoView 进行更广泛的视觉感知任务,例如基于惯性的人体姿态估计、深度估计和语义场景分类。此外,研究还将探索使用 SLAM 或结构从运动等技术来提高全局位置和方向估计的准确性。