COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition
作者: Baiyu Chen, Wilson Wongso, Zechen Li, Yonchanok Khaokaew, Hao Xue, Flora Salim
发布时间: 2025-03-11
来源: arxiv
研究方向: 人机交互,可穿戴设备,人类活动识别
主要内容
本文提出了一种名为COMODO的跨模态自监督蒸馏框架,用于提高基于IMU的人类活动识别(HAR)的效率。该框架通过将视频模态中的丰富语义知识转移到IMU模态,实现了在不依赖标注数据的情况下,从视频到IMU的知识迁移。
主要贡献
1. 提出了COMODO,一种跨模态自监督蒸馏框架,实现从视频到IMU的无标注知识迁移。
2. 引入了跨模态FIFO队列机制,为IMU特征蒸馏提供稳定且多样化的参考分布。
3. COMODO支持多种视频和时间序列预训练模型,具有灵活的教师-学生配置能力。
4. COMODO展现出强大的跨数据集泛化能力,在未见过的数据集上也能保持优异的性能。
研究方法
1. 跨模态自监督蒸馏
2. FIFO队列机制
3. 对比学习
4. 知识蒸馏
5. 多模态学习
实验结果
在多个基准数据集上的实验表明,COMODO在下游分类任务中取得了显著的性能提升,其结果与全监督微调模型相当甚至更优。此外,COMODO展现出强大的跨数据集泛化能力。
未来工作
COMODO的适应性和可扩展性为未来研究提供了可行的框架,可以进一步探索从视觉模型到资源受限传感器的跨模态知识迁移,从而提高基于视觉的传感器式HAR的性能。