FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics
作者: Yixuan Li, Yu Tian, Yipo Huang, Wei Lu, Shiqi Wang, Weisi Lin, Anderson Rocha
发布时间: 2025-04-03
来源: arxiv
研究方向: AI图像生成检测与取证
主要内容
本文提出了一种名为FakeScope的多模态专家模型,用于透明地检测AI生成的图像。该模型不仅能够高精度地识别AI合成的图像,还能提供丰富的、可解释的、基于查询的取证洞察。
主要贡献
1. 提出了FakeChain,一个大规模的多模态数据集,其中包含基于视觉痕迹证据的图像真实性的推理。
2. 开发了FakeInstruct,第一个百万规模的视觉指令数据集,用于增强LMM在AI生成图像检测中的多维取证能力。
3. 提出了FakeScope,一个用于透明AI生成图像检测的多模态专家模型,它集成了检测和基于查询的取证分析。
4. 提出了一种基于标记的软评分策略,通过将模型输出转换为可量化的概率估计,从而将模型的定性真实性判断扩展到可量化的概率估计。
5. 在多个数据集上进行的实验表明,FakeScope在检测和透明度相关任务方面都优于其他LMM和二元模型。
研究方法
1. 构建了FakeChain数据集,包含基于视觉痕迹证据的图像真实性推理。
2. 开发了FakeInstruct数据集,包含200万个视觉指令,用于增强LMM的取证意识。
3. 提出了FakeScope模型,利用LMM的跨模态能力,并对其进行微调以增强其取证意识。
4. 使用基于标记的软评分策略进行概率估计,以提供可量化的概率估计,而无需额外的显式训练。
5. 在多个数据集上进行了实验,以评估FakeScope的性能。
实验结果
FakeScope在多个数据集上进行了评估,包括FakeBench、AntiFakePrompt、AIGCDetectBenchmark、WildRF和SynthWildX。实验结果表明,FakeScope在检测、解释、分析和讨论AI生成的图像方面表现出色,并且在真实世界场景中具有强大的泛化能力和实用性。
未来工作
未来的工作将集中在提高模型的小样本适应性和辩证推理能力,以在更复杂的取证环境中提供更好的鲁棒性和解释能力。