Controlled Diversity: Length-optimized Natural Language Generation

作者: Diana Marie Schenke, Timo Baumann

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言生成与机器学习

主要内容

该研究提出了一种方法,通过增强数据和现有微调技术训练大型语言模型(LLM),使其能够根据严格长度要求生成文本。该方法旨在提高LLM在需要遵循多样化用户和系统要求的应用中的实用性。

主要贡献

1. 提出了一种新的数据增强方法,用于在现有数据集上生成符合长度要求的训练数据。

2. 比较了三种微调方法(SFT、DPO和ORPO)在调整LLM长度要求方面的性能。

3. 证明了ORPO方法在保证响应质量的同时,能够有效地调整LLM的长度要求。

4. 展示了训练模型时使用自身响应数据可以避免对响应质量的潜在负面影响。

研究方法

1. 数据增强:在现有数据集上添加长度要求。

2. 监督微调(SFT):使用人工创建的示例数据训练模型。

3. 直接偏好优化(DPO):使用偏好数据调整模型,使其更倾向于生成偏好的响应。

4. 概率比偏好优化(ORPO):结合了DPO和SFT的优点,直接基于模型输出响应的几率进行优化。

5. 强化学习(RL):使用RLHF技术,让模型从人类反馈中学习。

实验结果

实验结果表明,通过SFT和ORPO微调后的模型在满足长度要求的同时,保持了较高的响应质量。其中,ORPO模型在所有长度要求上均优于基于SFT的模型。使用自身响应数据进行训练的模型在响应质量上与基线模型相当,表明了数据增强方法的可行性。

未来工作

进一步研究如何将该方法应用于需要非常短响应的任务,并探索如何使模型能够泛化到训练数据之外的长度要求。