Scaling Rich Style-Prompted Text-to-Speech Datasets

作者: Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi

发布时间: 2025-03-07

来源: arxiv

研究方向: 语音合成与语音风格控制

主要内容

该研究旨在通过创建一个大规模的语音风格标注数据集(ParaSpeechCaps),来提升语音风格化文本到语音合成(TTS)模型的表现。该数据集包含丰富的风格标签,并提出了两种自动标注方法以扩大数据规模。

主要贡献

1. 创建了ParaSpeechCaps,一个包含59个独特风格标签的大规模语音风格标注数据集。

2. 收集了282小时的众包标注数据用于构建人工标注数据集(PSC-Base)。

3. 提出了两种自动标注方法,分别用于标注内在和情境风格标签,以扩大数据规模。

4. 通过人工评估验证了自动标注数据的质量,并展示了风格化TTS模型在风格一致性和自然度上的显著提升。

5. 提供了对数据集设计选择的详细分析,为未来工作奠定了基础。

研究方法

1. 众包标注:通过Amazon Mechanical Turk收集人类标注数据。

2. 感知说话人相似度模型:用于识别与人类标注具有相似风格的说话人。

3. 表达性语音分类器:用于识别具有强烈情感表达的语音片段。

4. 文本嵌入模型:用于根据语义匹配所需的情境标签。

5. 音频语言模型:用于检查语音是否与情境标签匹配。

6. 风格化TTS模型微调:使用ParaSpeechCaps数据集对Parler-TTS模型进行微调。

实验结果

实验结果表明,与基于现有小型数据集的基线模型相比,使用ParaSpeechCaps数据集微调的模型在风格一致性和自然度上都有显著提升。对于风格一致性和自然度,分别提高了7.9%和15.5%。

未来工作

未来工作可以探索以下方面:扩展语言覆盖范围,开发自动评估指标,以及分析模型的行为以进行更细致的分析。