A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs

作者: Julius Broomfield, Kartik Sharma, Srijan Kumar

发布时间: 2025-03-03

来源: arxiv

研究方向: 多模态大型语言模型(LLMs)的人设表达与评估

主要内容

本研究探讨了不同模态(文本和图像)对LLMs人设表达的影响。研究者创建了包含40个不同人设的模态平行数据集,并使用60个问题评估LLMs在不同模态下的人设表现。

主要贡献

1. 进行了第一个关于人设模态如何影响LLMs表达的系统研究。

2. 创建了一个包含40个不同人设的模态平行数据集,并设计了60个问题来评估LLMs的人设表现。

3. 实验结果表明,文本人设的表达效果优于图像人设。

4. 对结果进行了分层分析,表明结果在不同人设、评估者和问题类型上都是稳定的。

5. 发布了数据集和代码,以促进未来研究。

研究方法

1. 创建模态平行数据集:包含图像、文本、辅助图像和描述性图像四种模态。

2. 问题生成:设计60个问题,包括直接测试和情境测试。

3. 评估方法:使用LLM评估和语言学指标评估LLMs的人设表现。

4. 比较评估:使用成对比较和瑞士系统比较评估不同模态的表现。

5. 语言学分析:分析每个响应的词汇多样性、变化和复杂性。

实验结果

实验结果表明,基于文本的人设表现优于基于图像的人设。在所有模型中,文本人设的评分在几乎所有标准中都是最高的。此外,描述性图像模态在GPT-4o、GPT-4o mini和Pixtral模型中显示出了显著高于文本模态的评分。

未来工作

未来研究可以扩大数据集规模,并探索如何利用图像信息来改进人设表达。此外,可以研究如何将不同模态的信息更好地整合到LLMs中,以提高其多模态能力。