Synthetic News Generation for Fake News Classification

作者: Abdul Sittar, Luka Golob, Mateja Smiljanic

发布时间: 2025-04-03

来源: arxiv

研究方向: 合成新闻生成与假新闻分类

主要内容

本研究探索了通过基于事实的操纵使用大型语言模型(LLM)生成和评估合成假新闻。提出了一种新方法,从真实文章中提取关键事实,修改它们,并重新生成内容以模拟假新闻,同时保持连贯性。为了评估生成内容的质量,提出了一组评估指标——连贯性、差异性和正确性。研究还调查了合成数据在假新闻分类中的应用,比较了传统的机器学习模型和基于transformer的模型(如BERT)。实验表明,transformer模型,特别是BERT,有效地利用合成数据进行假新闻检测,显示出使用较小比例合成数据的改进。此外,研究发现,事实验证功能,专注于识别事实不一致性,在区分合成假新闻方面提供了最有希望的结果。

主要贡献

1. 开发了一种通过修改关键事实同时保持连贯性的方法来生成合成假新闻。

2. 评估了多种特征工程方法,包括TF-IDF、实体提取、文体分析和事实验证。

3. 引入了一种使用连贯性、差异性和正确性指标来评估合成新闻质量的方法。

4. 使用传统的机器学习模型和深度学习技术对合成假新闻进行了分类。

研究方法

1. 提取和结构化事实内容到一个专用知识表中。

2. 使用大型语言模型(LLM)提取事实。

3. 使用思维链提示策略对提取的信息进行修改。

4. 使用BERT嵌入来评估连贯性。

5. 使用事实验证来评估差异性和正确性。

6. 在机器学习实验中使用多种模型和特征工程方法来评估假新闻分类的性能。

实验结果

实验结果表明,BERT在假新闻分类任务中表现良好,F1分数为0.778。使用事实验证功能时,在将合成数据纳入训练集时显示出5.4%的改进。然而,当仅测试标准(非合成)假新闻时,平均性能下降了7.1%。这表明合成数据与真实世界虚假新闻模式之间存在显著的领域差距。

未来工作

未来的工作将探索更大的模型,如Llama3:70B或其他先进的LLM,以可能改进合成新闻生成质量。此外,将研究如何生成内容,以解决敏感或具有争议性主题的问题。将探索改进提示工程方法,以提高评估指标的质量。最后,将开发更复杂的合成数据生成方法,以更好地模仿现实世界中的虚假新闻模式。