PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation
作者: Albert Gong, Kamilė Stankevičiūtė, Chao Wan, Anmol Kabra, Raphael Thesmar, Johann Lee, Julius Klenke, Carla P. Gomes, Kilian Q. Weinberger
发布时间: 2025-02-28
来源: arxiv
研究方向: 自然语言处理、语言模型评估
主要内容
PhantomWiki是一种用于评估大型语言模型(LLM)推理和检索能力的基准框架。它通过生成虚构的宇宙和事实,构建文档语料库,并生成问题-答案对,从而提供一种不依赖于特定数据集的评估方法。
主要贡献
1. 提出了一种生成虚构宇宙和文档语料库的框架,以评估LLM的推理和检索能力。
2. 通过调整问题难度和语料库大小,可以分别评估推理和检索能力。
3. 提供了一个可扩展且具有抗数据泄露性的框架,用于评估推理、检索和工具使用能力。
4. 验证了PhantomWiki对前沿LLM的挑战性,并揭示了当前LLM在推理和检索方面的局限性。
研究方法
1. 生成虚构宇宙:通过生成人物、社会关系和个人事实来创建虚构宇宙。
2. 生成文档语料库:使用预定义模板将虚构宇宙的事实转换为文章。
3. 生成问题-答案对:使用上下文无关文法生成问题,并使用逻辑编程语言(如Prolog)生成答案。
4. 评估LLM性能:通过将LLM与不同类型的提示技术(如上下文提示、RAG提示和代理提示)结合使用,评估其推理和检索能力。
实验结果
实验结果表明,随着问题复杂性和宇宙大小的增加,当前前沿LLM在推理和检索方面都存在挑战。在推理方面,LLM在处理需要多步推理的问题时表现不佳。在检索方面,LLM在处理大型语料库时难以检索到相关文档。
未来工作
未来工作将包括验证PhantomWiki的抗数据泄露性,将其扩展到其他知识库和模态,以及开发理论来证明其抗数据泄露性。