Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models

作者: Colleen Gilhuly, Haleh Shahzad

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理,文本摘要,大型语言模型

主要内容

本文研究了大型语言模型(LLMs)在新闻文章摘要生成中的表现,并评估了不同摘要方法的性能。研究者比较了多种文本摘要技术,包括TextRank、BART、Mistral-7B-Instruct和OpenAI GPT-3.5-Turbo,并使用ROUGE和BERT等标准评估指标以及LLM驱动的评估方法来评估摘要的一致性。

主要贡献

1. 提出了一种基于LLM的元评估分数,用于直接评估LLM评估系统的性能。

2. 使用多种方法评估了不同摘要模型的性能,包括ROUGE、BERT、问答评估和事实核查。

3. 发现所有摘要模型在XL-Sum数据集上生成的摘要都相当一致,超过了参考摘要的一致性。

4. 比较了不同摘要模型的性能,并讨论了它们的优缺点。

5. 分析了LLM作为评估器的优缺点,并提出了改进LLM评估方法的建议。

研究方法

1. 使用XL-Sum数据集作为实验基础。

2. 使用多种文本摘要技术,包括TextRank、T5、BART、Mistral-7B-Instruct、Llama3-8B-Instruct、Falcon-40B-Instruct和GPT-3.5-Turbo。

3. 使用ROUGE和BERT等标准评估指标来评估摘要的性能。

4. 使用LLM驱动的评估方法,包括问答评估和事实核查,来评估摘要的一致性。

5. 使用元评估分数来评估LLM评估系统的准确性。

实验结果

所有摘要模型在XL-Sum数据集上生成的摘要都相当一致,超过了参考摘要的一致性。GPT-3.5-Turbo在LLM驱动的评估方法中表现最佳,但在标准评估指标中表现不如其他模型。LLM作为评估器的表现不如人类评估,但比传统评估指标更准确。

未来工作

改进LLM评估方法,提高其准确性和可靠性。探索更先进的文本摘要技术,例如基于注意力机制的方法。研究如何将LLMs应用于更广泛的文本摘要任务。