Dynamic Knowledge Integration for Evidence-Driven Counter-Argument Generation with Large Language Models

作者: Anar Yeginbergen, Maite Oronoz, Rodrigo Agerri

发布时间: 2025-03-10

来源: arxiv

研究方向: 自然语言处理(NLP)中的论证与反驳生成

主要内容

本研究探讨了动态外部知识整合在利用大型语言模型(LLM)生成反驳论证中的作用。研究人员通过构建一个平衡论证复杂性和评估可行性的手动编纂数据集,并引入了一种新的基于LLM的评估方法,以改进反驳论证的质量。实验结果表明,从网络中整合动态外部知识可以显著提高生成反驳论证的质量,特别是在相关性、说服力和事实性方面。

主要贡献

1. 构建了一个新的反驳论证数据集,该数据集包含简明且结构化的论证和反驳对。

2. 提出了一种新的方法,将动态从网络中检索的外部知识整合到基于LLM的反驳论证生成中。

3. 实验结果表明,通过整合动态外部知识,基于LLM的反驳论证生成得到了改善,特别是在事实证据对实用方面的影响方面。

4. 提出了一种基于LLM的评估方法(LLM-as-a-Judge),该方法与人类评估的相关性高于传统的基于参考的指标,如BLEU、METEOR或BERTScore。

研究方法

1. 构建了一个新的反驳论证数据集,该数据集包含简明且结构化的论证和反驳对。

2. 使用Cohere API进行网络搜索以检索与论证相关的证据。

3. 使用LLM生成反驳论证。

4. 引入了LLM-as-a-Judge自动评估方法。

5. 使用人类评估和基于参考的自动评估方法来评估反驳论证的质量。

实验结果

实验结果表明,与仅使用模型参数知识生成的反驳论证相比,使用外部知识生成的反驳论证在相关性、说服力和事实性方面表现更好。LLM-as-a-Judge评估方法与人类评估的相关性高于传统的基于参考的指标。

未来工作

未来的工作可以包括探索更多模型,以更全面地评估不同LLM在反驳论证生成中的表现;研究跨语言的反驳论证生成;开发更有效的评估方法,以扩展分析;并调查潜在的数据污染问题。