Scaling Rich Style-Prompted Text-to-Speech Datasets
作者: Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi
发布时间: 2025-03-07
来源: arxiv
研究方向: 语音合成与语音风格控制
主要内容
该研究旨在通过创建一个大规模的语音风格标注数据集(ParaSpeechCaps),来提升语音风格化文本到语音合成(TTS)模型的表现。该数据集包含丰富的风格标签,并提出了两种自动标注方法以扩大数据规模。
主要贡献
1. 创建了ParaSpeechCaps,一个包含59个独特风格标签的大规模语音风格标注数据集。
2. 收集了282小时的众包标注数据用于构建人工标注数据集(PSC-Base)。
3. 提出了两种自动标注方法,分别用于标注内在和情境风格标签,以扩大数据规模。
4. 通过人工评估验证了自动标注数据的质量,并展示了风格化TTS模型在风格一致性和自然度上的显著提升。
5. 提供了对数据集设计选择的详细分析,为未来工作奠定了基础。
研究方法
1. 众包标注:通过Amazon Mechanical Turk收集人类标注数据。
2. 感知说话人相似度模型:用于识别与人类标注具有相似风格的说话人。
3. 表达性语音分类器:用于识别具有强烈情感表达的语音片段。
4. 文本嵌入模型:用于根据语义匹配所需的情境标签。
5. 音频语言模型:用于检查语音是否与情境标签匹配。
6. 风格化TTS模型微调:使用ParaSpeechCaps数据集对Parler-TTS模型进行微调。
实验结果
实验结果表明,与基于现有小型数据集的基线模型相比,使用ParaSpeechCaps数据集微调的模型在风格一致性和自然度上都有显著提升。对于风格一致性和自然度,分别提高了7.9%和15.5%。
未来工作
未来工作可以探索以下方面:扩展语言覆盖范围,开发自动评估指标,以及分析模型的行为以进行更细致的分析。