DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation
作者: Ming Wang, Fang Wang, Minghao Hu, Li He, Haiyang Wang, Jun Zhang, Tianwei Yan, Li Li, Zhunchen Luo, Wei Luo, Xiaoying Bai, Guotong Geng
发布时间: 2025-03-11
来源: arxiv
研究方向: 长文本生成(Long-form Article Generation, LFAG)
主要内容
DeFine项目旨在解决长文本生成中的挑战,如逻辑一致性、主题覆盖范围和叙事连贯性。该项目提出了一种新的长文本生成数据集DeFine,它通过层次分解策略和细粒度注释来提高生成的深度和质量。
主要贡献
1. 提出了DeFine数据集,这是一个针对长文本生成任务而设计的层次分解和细粒度注释的数据集。
2. 设计了一个多智能体协作流程来构建长文本生成数据集。
3. 通过三个长文本生成基线(网络检索、本地检索和基于事实的引用)验证了DeFine的有效性,结果表明模型在文本质量、主题覆盖范围、信息深度和内容忠实度方面都有显著提升。
研究方法
1. 层次分解策略:将生成过程分解为三个阶段:大纲创建、引用检索和提取、问答数据生成。
2. 多智能体协作流程:包括数据挖掘器、引用检索器、问答注释器和数据清理器。
3. 细粒度注释:在生成过程的每个阶段进行细粒度注释,确保逻辑一致性和内容组织。
4. 数据清理:确保数据完整性,从丰富性、相关性和覆盖范围等多个角度进行严格的数据清理。
5. 幻觉检测算法:用于检测和过滤掉不准确的引用信息,提高数据集的准确性。
6. 模型微调:使用DeFine训练集对Qwen2-7b-Instruct模型进行微调。
实验结果
实验结果表明,使用DeFine数据集微调的Qwen2-7b-Scribe模型在逻辑一致性、事实准确性和引用可靠性方面优于现有的长文本生成方法。模型在大纲生成和长文章生成任务上都取得了显著的性能提升。
未来工作
未来工作将集中于平衡语言数据、扩展专业主题的覆盖范围,并开发与人类判断更一致的评估框架。此外,研究还将关注提高模型的鲁棒性,减少事实不一致性,以及探索更有效的长文本生成方法。