Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings

作者: Xuanqing Liu, Luyang Kong, Wei Niu, Afshin Khashei, Belinda Zeng, Steve Johnson, Jon Jay, Davor Golac, Matt Pope

发布时间: 2025-03-10

来源: arxiv

研究方向: 对话理解与任务导向对话系统

主要内容

本文提出了一种利用大型语言模型(LLM)生成标签并在此基础上进行微调的框架,旨在解决实时对话理解中数据标注成本高、效率低的问题。该框架通过偏好学习机制,结合少量高质量人工标注数据和大量LLM生成的低质量标签,实现了在保持较高准确率的同时,提高模型的处理速度。

主要贡献

1. 提出了一种基于偏好学习的框架,用于在LLM生成的标签上进行微调。

2. 设计了一种噪声减少的偏好学习损失函数,有效减少了LLM标签误差对模型性能的影响。

3. 实验结果表明,该方法在多个对话理解任务上取得了显著的性能提升,包括情感检测、对话动作分类和对话状态跟踪等。

研究方法

1. 偏好学习:通过将对话片段进行配对,并利用LLM进行标注,学习模型对片段的偏好。

2. 噪声减少:通过设计噪声减少的偏好学习损失函数,降低LLM标签误差对模型性能的影响。

3. 数据增强:通过将对话进行分段,并从同一对话中采样片段进行训练,增加模型对数据分布的适应性。

实验结果

在多个对话理解任务上,该方法在保持较高准确率的同时,提高了模型的处理速度。例如,在情感检测任务上,该方法将准确率提高了超过2%,在对话动作分类任务上,准确率提高了超过1.5%。

未来工作

将该方法扩展到强化学习领域,用于解决强化学习中的标签噪声问题。