Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models
作者: Colleen Gilhuly, Haleh Shahzad
发布时间: 2025-03-03
来源: arxiv
研究方向: 自然语言处理,文本摘要,大型语言模型
主要内容
本文研究了大型语言模型(LLMs)在新闻文章摘要生成中的表现,并评估了不同摘要方法的性能。研究者比较了多种文本摘要技术,包括TextRank、BART、Mistral-7B-Instruct和OpenAI GPT-3.5-Turbo,并使用ROUGE和BERT等标准评估指标以及LLM驱动的评估方法来评估摘要的一致性。
主要贡献
1. 提出了一种基于LLM的元评估分数,用于直接评估LLM评估系统的性能。
2. 使用多种方法评估了不同摘要模型的性能,包括ROUGE、BERT、问答评估和事实核查。
3. 发现所有摘要模型在XL-Sum数据集上生成的摘要都相当一致,超过了参考摘要的一致性。
4. 比较了不同摘要模型的性能,并讨论了它们的优缺点。
5. 分析了LLM作为评估器的优缺点,并提出了改进LLM评估方法的建议。
研究方法
1. 使用XL-Sum数据集作为实验基础。
2. 使用多种文本摘要技术,包括TextRank、T5、BART、Mistral-7B-Instruct、Llama3-8B-Instruct、Falcon-40B-Instruct和GPT-3.5-Turbo。
3. 使用ROUGE和BERT等标准评估指标来评估摘要的性能。
4. 使用LLM驱动的评估方法,包括问答评估和事实核查,来评估摘要的一致性。
5. 使用元评估分数来评估LLM评估系统的准确性。
实验结果
所有摘要模型在XL-Sum数据集上生成的摘要都相当一致,超过了参考摘要的一致性。GPT-3.5-Turbo在LLM驱动的评估方法中表现最佳,但在标准评估指标中表现不如其他模型。LLM作为评估器的表现不如人类评估,但比传统评估指标更准确。
未来工作
改进LLM评估方法,提高其准确性和可靠性。探索更先进的文本摘要技术,例如基于注意力机制的方法。研究如何将LLMs应用于更广泛的文本摘要任务。