Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts
作者: Sara Ghaboura, Ketan More, Ritesh Thawkar, Wafa Alghallabi, Omkar Thawakar, Fahad Shahbaz Khan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer
研究方向: 历史与文化遗物的人工智能分析
本文提出TimeTravel,一个用于评估大型多模态模型在历史和文化遗物分析中性能的基准。TimeTravel包含10,250个专家验证的样本,覆盖266个不同的文化群体,跨越10个主要历史区域。该基准旨在提供结构化数据集和评估框架,以评估AI模型在分类、解释和历史理解方面的能力。