Scaling Rich Style-Prompted Text-to-Speech Datasets

作者: Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi

发布时间: 2025-03-07

来源: arxiv

研究方向: 语音合成与语音风格控制

主要内容

该研究旨在通过创建一个大规模的语音风格标注数据集（ParaSpeechCaps），来提升语音风格化文本到语音合成（TTS）模型的表现。该数据集包含丰富的风格标签，并提出了两种自动标注方法以扩大数据规模。

1. 创建了ParaSpeechCaps，一个包含59个独特风格标签的大规模语音风格标注数据集。

2. 收集了282小时的众包标注数据用于构建人工标注数据集（PSC-Base）。

3. 提出了两种自动标注方法，分别用于标注内在和情境风格标签，以扩大数据规模。

4. 通过人工评估验证了自动标注数据的质量，并展示了风格化TTS模型在风格一致性和自然度上的显著提升。

5. 提供了对数据集设计选择的详细分析，为未来工作奠定了基础。

1. 众包标注：通过Amazon Mechanical Turk收集人类标注数据。

2. 感知说话人相似度模型：用于识别与人类标注具有相似风格的说话人。

3. 表达性语音分类器：用于识别具有强烈情感表达的语音片段。

4. 文本嵌入模型：用于根据语义匹配所需的情境标签。

5. 音频语言模型：用于检查语音是否与情境标签匹配。

6. 风格化TTS模型微调：使用ParaSpeechCaps数据集对Parler-TTS模型进行微调。

实验结果表明，与基于现有小型数据集的基线模型相比，使用ParaSpeechCaps数据集微调的模型在风格一致性和自然度上都有显著提升。对于风格一致性和自然度，分别提高了7.9%和15.5%。

未来工作可以探索以下方面：扩展语言覆盖范围，开发自动评估指标，以及分析模型的行为以进行更细致的分析。