Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts
作者: Sara Ghaboura, Ketan More, Ritesh Thawkar, Wafa Alghallabi, Omkar Thawakar, Fahad Shahbaz Khan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer
发布时间: 2025-02-23 22:29:29
来源: arxiv
研究方向: 历史与文化遗物的人工智能分析
主要内容
本文提出TimeTravel,一个用于评估大型多模态模型在历史和文化遗物分析中性能的基准。TimeTravel包含10,250个专家验证的样本,覆盖266个不同的文化群体,跨越10个主要历史区域。该基准旨在提供结构化数据集和评估框架,以评估AI模型在分类、解释和历史理解方面的能力。
主要贡献
1. 提出了TimeTravel基准,用于评估LMM在历史遗物分析中的性能。
2. 构建了一个包含10,250个样本的数据集,涵盖了266个不同的文化群体。
3. 通过GPT-4o生成详细、情境化的文本描述,增强了数据集的价值。
4. 通过多种指标评估了不同模型在TimeTravel基准上的表现。
5. 为文化遗产保护和历史分析提供了新的研究工具。
研究方法
1. 数据收集与验证:从博物馆收集遗物数据,并与专家合作验证数据。
2. 文本生成:使用GPT-4o生成详细的文本描述。
3. 数据过滤与验证:通过专家验证和自动化技术确保数据的准确性和可靠性。
4. 评估指标:使用BLEU、METEOR、ROUGE-L、SPICE、BERTScore和LLM-Judge等指标评估模型性能。
实验结果
实验结果表明,闭源模型在生成历史准确的描述方面优于开源模型。GPT-4o在多个指标上表现最佳,而Qwen-2.5-VL在开源模型中表现最佳。实验还表明,闭源模型在描述不同地区和文明的考古遗物方面表现更好。
未来工作
未来的工作将集中在以下方面:改进开源模型以缩小与闭源模型的差距,扩展数据集以包含更多文化群体和遗物类型,以及开发更先进的评估方法以更好地理解LMM在历史和文化遗物分析中的能力。