Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

作者: Sara Ghaboura, Ketan More, Ritesh Thawkar, Wafa Alghallabi, Omkar Thawakar, Fahad Shahbaz Khan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer

研究方向: 历史与文化遗物的人工智能分析

本文提出TimeTravel,一个用于评估大型多模态模型在历史和文化遗物分析中性能的基准。TimeTravel包含10,250个专家验证的样本,覆盖266个不同的文化群体,跨越10个主要历史区域。该基准旨在提供结构化数据集和评估框架,以评估AI模型在分类、解释和历史理解方面的能力。

ID: 2502.14865v1来源: arxiv发布时间: 2025-02-23 22:29:29

Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

作者: Yuming Yang, Jiang Zhong, Li Jin, Jingwang Huang, Jingpeng Gao, Qing Liu, Yang Bai, Jingyuan Zhang, Rui Jiang, Kaiwen Wei

研究方向: 多模态检索增强生成(MRAG)

本文提出了一种基于图表的MRAG任务,旨在解决现有MRAG基准测试主要关注简单图像-文本交互而忽略复杂视觉格式(如图表)的问题。为了生成高质量的评估样本,提出了CHARt-based document question-answering GEneration(CHARGE)框架,通过结构化关键点提取、跨模态验证和基于关键点的生成来生成评估数据。结合CHARGE和专家验证,构建了Chart-MRAG Bench基准,涵盖了来自现实世界文档的8个领域的4,738个问答对。

ID: 2502.14864v1来源: arxiv发布时间: 2025-02-23 22:30:14

Interpretable Text Embeddings and Text Similarity Explanation: A Primer

作者: Juri Opitz, Lucas Möller, Andrianos Michail, Simon Clematide

研究方向: 可解释文本嵌入和文本相似度解释

本文旨在提供对基于嵌入的相似度模型和度量的理解,特别是针对解释相似度得分的研究。文章涵盖了不同类型的可解释性方法,包括空间塑造、基于集合和基于归因的方法,并讨论了它们的潜在优势和挑战。

ID: 2502.14862v1来源: arxiv发布时间: 2025-02-23 22:28:43

Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

作者: Shuyue Stella Li, Jimin Mun, Faeze Brahman, Jonathan S. Ilgen, Yulia Tsvetkov, Maarten Sap

研究方向: 人工智能与临床推理

本文提出了一种名为ALFA的框架,旨在通过将“良好”问题的概念分解为一系列理论基础的属性,并使用偏好优化算法来指导模型学习这些属性,从而提高大型语言模型(LLM)在临床推理中的问答能力。

ID: 2502.14860v1来源: arxiv发布时间: 2025-02-24

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

作者: Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun

研究方向: 自然语言处理(NLP)

该研究针对大词汇量语言模型(LLM)在生成速度上的瓶颈,提出了一种名为FR-Spec的频率优先的投机采样框架。该框架通过词汇空间压缩优化候选选择,从而加速大词汇量LLM的生成过程。

ID: 2502.14856v1来源: arxiv发布时间: 2025-02-24

Prompt-to-Leaderboard

作者: Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica

研究方向: 人工智能与机器学习

该研究提出了一种名为Prompt-to-Leaderboard (P2L)的新方法,用于评估大型语言模型(LLM)在特定提示下的性能。P2L通过训练一个LLM,使其能够根据自然语言提示输出Bradley-Terry系数向量,从而预测人类偏好投票。这种方法能够生成与提示相关的排行榜,从而实现对LLM的细粒度评估。

ID: 2502.14855v1来源: arxiv发布时间: 2025-02-24

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

作者: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark

研究方向: 视觉语言模型 (VLM) 与合成数据生成

本文提出了一种名为 CoSyn 的框架,利用纯文本大型语言模型 (LLM) 的编码能力自动创建合成文本丰富的多模态数据。该框架通过生成代码来渲染合成图像,并利用这些代码作为文本表示来创建视觉语言指令微调数据集。

ID: 2502.14846v1来源: arxiv发布时间: 2025-02-23 22:30:53

Dynamic Concepts Personalization from Single Videos

作者: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman

研究方向: 视频生成与个性化

本文研究了如何利用动态概念来个性化文本到视频模型,通过结合外观和运动信息,实现视频的编辑和组合。

ID: 2502.14844v1来源: arxiv发布时间: 2025-02-24

Revealing and Mitigating Over-Attention in Knowledge Editing

作者: Pinzheng Wang, Zecheng Tang, Keyan Zhou, Juntao Li, Qiaoming Zhu, Min Zhang

研究方向: 大型语言模型(LLM)的知识编辑与优化

本文研究了大型语言模型在知识编辑过程中出现的特定性失败问题,即模型在编辑知识后,对相关实体过度关注,导致预测结果与上下文语义不符。针对这一问题,提出了Selective Attention Drift Restriction(SADR)方法,通过限制注意力权重分布的变化,防止对编辑实体的过度关注,从而缓解特定性失败。

ID: 2502.14838v1来源: arxiv发布时间: 2025-02-24

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

研究方向: 视觉语言模型(VLM)的长期输出能力提升

该研究旨在提升视觉语言模型在生成长文本方面的能力,特别是针对基于视觉输入的长期输出任务。研究通过构建一个新的数据集LongWriter-V-22k,以及提出了一种改进的监督微调(SFT)和直接偏好优化(DPO)方法,来扩展VLM的输出长度并提高输出质量。

ID: 2502.14834v1来源: arxiv发布时间: 2025-02-24