Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning
作者: Lucas Block Medin, Thomas Pellegrini, Lucile Gelin
发布时间: 2025-03-08
来源: arxiv
研究方向: 儿童语音识别与阅读学习
主要内容
本文研究了使用自监督学习模型进行儿童语音的音素识别,并应用于阅读学习。研究者比较了wav2vec 2.0、HuBERT和WavLM模型在法国儿童语音识别任务上的表现,并进一步优化了WavLM模型,提高了其在阅读任务和噪声环境下的鲁棒性。
主要贡献
1. 比较了wav2vec 2.0、HuBERT和WavLM模型在儿童语音识别任务上的表现。
2. 探索了WavLM模型在儿童语音数据上的微调过程,并显著优于基线模型。
3. 证明了WavLM base+模型在阅读任务和噪声环境下具有更好的泛化能力和鲁棒性。
研究方法
1. 自监督学习
2. 模型微调
3. 对比实验
4. 性能评估
实验结果
实验结果表明,WavLM base+模型在儿童语音识别任务上优于wav2vec 2.0、HuBERT和基线模型。在阅读任务和噪声环境下,WavLM base+模型也表现出更好的泛化能力和鲁棒性。
未来工作
未来可以进一步研究以下方面:1. 探索更多自监督学习模型在儿童语音识别任务上的应用;2. 研究如何利用更少的儿童语音数据训练模型;3. 将模型应用于更多语言和阅读任务。