Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms

作者: Xiao Wang, Yuehang Li, Fuling Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, Jin Tang, Bin Luo

发布时间: 2025-03-11

来源: arxiv

研究方向: 多模态手语翻译

主要内容

该研究提出了一种基于RGB和事件流的多模态手语翻译方法，旨在提高手语翻译的准确性和鲁棒性。研究首先构建了一个大规模的多模态手语翻译数据集VECSL，然后提出了一种名为M2-SLT的新型手语翻译框架，该框架结合了细粒度微手势和粗粒度宏手势检索，实现了在VECSL数据集上的最佳性能。

1. 构建了一个大规模的多模态手语翻译数据集VECSL，包含RGB和事件流数据。

2. 提出了一种名为M2-SLT的新型手语翻译框架，结合了微手势和宏手势检索。

3. 建立了VECSL数据集的基准，包括多种SLT算法的实验结果。

4. 在VECSL数据集上实现了最佳的手语翻译性能。

1. 数据收集：使用DVS346事件相机和传统帧相机收集手语数据。

2. 数据预处理：将事件流转换为与RGB帧对齐的帧。

3. 特征提取：使用ResNet和SignGraph提取RGB和事件流的视觉特征。

4. 微手势检索：设计了一个内存增强的架构，用于检索和增强微手势模式。

5. 宏手势检索：使用DBSCAN聚类提取宏手势原型，并使用Hopfield网络进行检索增强。

6. 手语翻译：使用mBART解码器进行手语翻译。

在VECSL数据集上，M2-SLT在BLEU-4和ROUGE-L指标上均取得了最佳性能，优于现有的SLT方法。

未来工作将集中在利用更大的解码器来提高性能而不增加计算复杂度，并探索无监督或弱监督学习方法来减少对大规模标注数据的依赖。