A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs
作者: Julius Broomfield, Kartik Sharma, Srijan Kumar
发布时间: 2025-03-03
来源: arxiv
研究方向: 多模态大型语言模型(LLMs)的人设表达与评估
主要内容
本研究探讨了不同模态(文本和图像)对LLMs人设表达的影响。研究者创建了包含40个不同人设的模态平行数据集,并使用60个问题评估LLMs在不同模态下的人设表现。
主要贡献
1. 进行了第一个关于人设模态如何影响LLMs表达的系统研究。
2. 创建了一个包含40个不同人设的模态平行数据集,并设计了60个问题来评估LLMs的人设表现。
3. 实验结果表明,文本人设的表达效果优于图像人设。
4. 对结果进行了分层分析,表明结果在不同人设、评估者和问题类型上都是稳定的。
5. 发布了数据集和代码,以促进未来研究。
研究方法
1. 创建模态平行数据集:包含图像、文本、辅助图像和描述性图像四种模态。
2. 问题生成:设计60个问题,包括直接测试和情境测试。
3. 评估方法:使用LLM评估和语言学指标评估LLMs的人设表现。
4. 比较评估:使用成对比较和瑞士系统比较评估不同模态的表现。
5. 语言学分析:分析每个响应的词汇多样性、变化和复杂性。
实验结果
实验结果表明,基于文本的人设表现优于基于图像的人设。在所有模型中,文本人设的评分在几乎所有标准中都是最高的。此外,描述性图像模态在GPT-4o、GPT-4o mini和Pixtral模型中显示出了显著高于文本模态的评分。
未来工作
未来研究可以扩大数据集规模,并探索如何利用图像信息来改进人设表达。此外,可以研究如何将不同模态的信息更好地整合到LLMs中,以提高其多模态能力。