PFDial: A Structured Dialogue Instruction Fine-tuning Method Based on UML Flowcharts

作者: Ming Zhang, Yuhui Wang, Yujiong Shen, Tingyi Yang, Changhao Jiang, Yilong Wu, Shihan Dou, Qinhao Chen, Zhiheng Xi, Zhihao Zhang, Yi Dong, Zhen Wang, Zhihui Fei, Mingyang Wan, Tao Liang, Guojun Ma, Qi Zhang, Tao Gui, Xuanjing Huang

发布时间: 2025-03-11

来源: arxiv

研究方向: 对话系统,可控制推理,自然语言处理

主要内容

本文提出了一种名为PFDial的对话指令微调方法,该方法基于UML流程图构建。通过将UML流程图转换为结构化的五元组(流程图描述、当前状态、用户输入、下一个状态、机器人输出),PFDial旨在帮助大型语言模型(LLMs)在遵循预定义流程约束的对话任务中实现精确的状态转换和推理。

主要贡献

1. 构建了PFDial数据集,包含从440个流程图和5,055个流程节点中提取的12,705个高质量中文对话指令。

2. 通过在PFDial数据集上进行微调,即使是参数量较小的模型也能达到高精度。

3. 在处理复杂的反向转换方面,PFDial-H数据集验证了该方法的优越性。

4. 分析了不同数据集格式对模型性能的影响,为未来研究提供了指导。

5. 发布了数据集,促进了该领域的研究和发展。

研究方法

1. 流程图收集和转换

2. 状态转换信息提取

3. 提示生成

4. 数据验证

5. 基于PFDial数据集的监督微调

6. 数据缩放实验

7. 反向转换研究

8. 格式消融研究

实验结果

实验结果表明,PFDial数据集对于提高模型在流程驱动对话系统中的性能具有显著效果。即使是参数量较小的模型,在PFDial数据集上进行微调后也能达到高精度。此外,该方法在处理反向转换和不同数据集格式方面也表现出优越的性能。

未来工作

未来工作将集中在扩展数据集以涵盖更多场景,以及改进训练方法以提高模型的泛化能力和适应性。