A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs

作者: Julius Broomfield, Kartik Sharma, Srijan Kumar

发布时间: 2025-03-03

来源: arxiv

研究方向: 多模态大型语言模型（LLMs）的人设表达与评估

主要内容

本研究探讨了不同模态（文本和图像）对LLMs人设表达的影响。研究者创建了包含40个不同人设的模态平行数据集，并使用60个问题评估LLMs在不同模态下的人设表现。

1. 进行了第一个关于人设模态如何影响LLMs表达的系统研究。

2. 创建了一个包含40个不同人设的模态平行数据集，并设计了60个问题来评估LLMs的人设表现。

3. 实验结果表明，文本人设的表达效果优于图像人设。

4. 对结果进行了分层分析，表明结果在不同人设、评估者和问题类型上都是稳定的。

5. 发布了数据集和代码，以促进未来研究。

1. 创建模态平行数据集：包含图像、文本、辅助图像和描述性图像四种模态。

2. 问题生成：设计60个问题，包括直接测试和情境测试。

3. 评估方法：使用LLM评估和语言学指标评估LLMs的人设表现。

4. 比较评估：使用成对比较和瑞士系统比较评估不同模态的表现。

5. 语言学分析：分析每个响应的词汇多样性、变化和复杂性。

实验结果表明，基于文本的人设表现优于基于图像的人设。在所有模型中，文本人设的评分在几乎所有标准中都是最高的。此外，描述性图像模态在GPT-4o、GPT-4o mini和Pixtral模型中显示出了显著高于文本模态的评分。

未来研究可以扩大数据集规模，并探索如何利用图像信息来改进人设表达。此外，可以研究如何将不同模态的信息更好地整合到LLMs中，以提高其多模态能力。