WritingBench: A Comprehensive Benchmark for Generative Writing
作者: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
发布时间: 2025-03-10
来源: arxiv
研究方向: 自然语言处理(NLP)与生成式写作
主要内容
本文提出了一种名为WritingBench的综合基准,旨在评估大型语言模型(LLMs)在生成式写作方面的性能。该基准涵盖了六个核心写作领域和100个子领域,包括创意、说服、信息和技术写作,并通过一个查询依赖的评估框架来动态生成实例特定的评估标准。
主要贡献
1. 创建了一个包含1,239个查询的综合基准,涵盖了6个主要领域和100个子领域。
2. 提出了一个查询依赖的评估框架,该框架结合了实例特定的标准生成和标准感知评分模型。
3. 公开了WritingBench,包括评估协议、标准生成工具和写作增强模型。
4. 通过数据整理能力证明了框架的有效性,使7B参数模型接近最先进(SOTA)性能。
研究方法
1. 构建基准:结合模型生成的查询优化和人工注释,确保多样性和现实相关性。
2. 查询依赖评估框架:动态生成实例特定标准,并通过微调的批评模型进行评分。
3. 数据整理:通过框架过滤数据,训练小规模模型以验证其识别高质量写作样本的能力。
4. 实验:在WritingBench上评估了16个LLMs,并进行了人类一致性评估。
5. 消融实验:评估了数据整理对写作增强模型的影响。
实验结果
实验结果表明,WritingBench能够有效地评估LLMs在生成式写作方面的性能。动态查询依赖的评估框架在人类一致性方面优于静态评估标准。数据整理能够提高写作增强模型的质量。
未来工作
探索更高级的优化策略,例如结合增强学习和强化学习。开发更精确的评分方法,以处理复杂的多维长度要求。研究如何减少人类评估中的主观偏差。