Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning

作者: Lucas Block Medin, Thomas Pellegrini, Lucile Gelin

发布时间: 2025-03-08

来源: arxiv

研究方向: 儿童语音识别与阅读学习

主要内容

本文研究了使用自监督学习模型进行儿童语音的音素识别,并应用于阅读学习。研究者比较了wav2vec 2.0、HuBERT和WavLM模型在法国儿童语音识别任务上的表现,并进一步优化了WavLM模型,提高了其在阅读任务和噪声环境下的鲁棒性。

主要贡献

1. 比较了wav2vec 2.0、HuBERT和WavLM模型在儿童语音识别任务上的表现。

2. 探索了WavLM模型在儿童语音数据上的微调过程,并显著优于基线模型。

3. 证明了WavLM base+模型在阅读任务和噪声环境下具有更好的泛化能力和鲁棒性。

研究方法

1. 自监督学习

2. 模型微调

3. 对比实验

4. 性能评估

实验结果

实验结果表明,WavLM base+模型在儿童语音识别任务上优于wav2vec 2.0、HuBERT和基线模型。在阅读任务和噪声环境下,WavLM base+模型也表现出更好的泛化能力和鲁棒性。

未来工作

未来可以进一步研究以下方面:1. 探索更多自监督学习模型在儿童语音识别任务上的应用;2. 研究如何利用更少的儿童语音数据训练模型;3. 将模型应用于更多语言和阅读任务。