Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework

作者: Zhuo Zhi, Chen Feng, Adam Daneshmend, Mine Orlu, Andreas Demosthenous, Lu Yin, Da Li, Ziquan Liu, Miguel R. D. Rodrigues

发布时间: 2025-03-12

来源: arxiv

研究方向: 多模态大型语言模型(MLLM)的多模态推理

主要内容

该研究提出了一种名为SRICE的多模态推理框架,旨在解决现有MLLM在多模态推理任务中的局限性,例如视觉问答(VQA)。SRICE通过集成外部视觉模型和不确定性量化(UQ)技术,实现了一种无需训练的多模态推理框架。

主要贡献

1. 提出了一种名为SRICE的多模态推理框架,通过外部视觉模型和UQ技术提高MLLM的推理能力。

2. 使用符合预测(CP)方法对外部视觉工具和MLLM输出进行校准,确保推理过程的可靠性。

3. 在五个数据集上进行了实验,结果表明SRICE的平均性能提高了4.6%,在某些数据集上甚至超过了基于微调的方法。

4. 通过消融实验验证了UQ方法的有效性,并展示了CP方法相对于启发式方法的明显优势。

研究方法

1. 多模态推理框架SRICE,包括工具调用和校准、区域兴趣选择、区域提取和最终答案生成。

2. 使用符合预测(CP)方法对外部视觉工具进行校准。

3. 使用基于预测集大小的UQ方法来估计MLLM输出的不确定性。

4. 在五个多模态推理数据集上进行实验评估。

实验结果

在五个数据集上进行的实验表明,SRICE在性能上优于基线模型,平均提高了4.6%。消融实验进一步验证了UQ方法的有效性,表明CP方法相对于启发式方法具有明显优势。

未来工作

将SRICE扩展到其他模态,以进一步提高多模态推理的能力。