OLMD: Orientation-aware Long-term Motion Decoupling for Continuous Sign Language Recognition
作者: Yiheng Yu, Sheng Liu, Yuan Feng, Min Xu, Zhelun Jin, Xuhua Yang
发布时间: 2025-03-12
来源: arxiv
研究方向: 连续手语识别 (CSLR)
主要内容
本文针对连续手语识别中的多方向和长期运动问题,提出了一种名为 OLMD (Orientation-aware Long-term Motion Decoupling) 的新框架。该框架通过长期运动聚合 (LMA) 模块高效地聚合长期运动,并将多方向信号解耦成易于理解的组件。此外,通过解耦复杂的运动成水平和垂直分量,提高了模型的运动纯净度,并增强了多尺度特征和模型泛化能力。
主要贡献
1. 创新性地设计了长期运动聚合 (LMA) 模块,有效抑制静态冗余并聚合手语中的长期运动。
2. 通过解耦运动并增强方向感知,通过方向感知运动纯化提高了模型对复杂手势的理解。
3. 在包括 PHOENIX14、PHOENIX14-T 和 CSL-Daily 在内的大型数据集上,证明了 OLMD 的 SOTA 性能。
研究方法
1. 长期运动聚合 (LMA) 模块:过滤静态冗余并自适应地捕获长期运动的特点。
2. 方向感知运动解耦:将复杂运动解耦成水平和垂直分量。
3. 阶段耦合和跨阶段耦合:丰富多尺度特征并提高模型泛化能力。
4. 运动感知运动纯化 (OMP):分别对水平和垂直运动进行纯化,增强方向感知。
5. 损失设计:CTC 损失和自蒸馏损失结合使用。
实验结果
在 PHOENIX14、PHOENIX14-T 和 CSL-Daily 三个大型数据集上,OLMD 在字错误率 (WER) 上优于所有之前的方法,提高了 PHOENIX14 上的 WER 1.6%。
未来工作
未来研究可以进一步探索更复杂的运动解耦策略,提高模型的实时性和鲁棒性,并尝试将 OLMD 应用于其他领域,如医学影像分析。