SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development
作者: Minghan Wang, Ye Bai, Yuxia Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
发布时间: 2025-04-03
来源: arxiv
研究方向: 语音对话生成与语音语言模型(Speech-LLM)开发
主要内容
SPEECHDIALOGUEFACTORY是一个用于生成高质量语音对话数据的框架,旨在解决现有语音对话数据集获取方法中存在的局限性,如人力录音成本高、隐私问题以及合成方法缺乏对话真实性。
主要贡献
1. 提供了一种质量保证的生成流程,结合结构化内容创建(元数据、脚本、模拟)和表达性语音合成,确保语言真实性和自然韵律。
2. 优化了生产实施,具有交互式UI和并行批量处理能力,适用于探索性开发和大规模数据集创建。
3. 发布了多语言数据集,包括英语和中文,以及中间记录和质量评估结果,以支持进一步研究。
研究方法
1. 元数据生成:定义对话基础的结构化元数据,包括对话设置、角色配置文件和对话上下文。
2. 对话脚本:将元数据转换为自然语言指令,作为生成对话的蓝图。
3. 对话模拟:使用LLM模拟完整对话,并输出带有情感状态、语速参数和轮流动态的JSON表示。
4. 内容评估:通过一致性、连贯性和自然性三个维度评估生成的对话内容。
5. 语音生成:通过声源检索和TTS合成将文本转换为真实对话语音。
6. 语音评估:对合成的语音进行质量、可懂度和声源一致性评估。
7. 用户界面:提供基于Gradio的Web UI和命令行界面,用于交互式探索和大规模生产。
实验结果
实验结果表明,SDF生成的对话在质量上与专业录音相当,同时提供了研究人员和开发者前所未有的灵活性和可用性,以创建定制的语音对话数据集。
未来工作
未来工作将集中在多党对话、增强界面功能以及针对企业级部署的优化。