A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops

作者: Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao

发布时间: 2025-02-27

来源: arxiv

研究方向: 生成式人工智能与自消耗训练循环

主要内容

本文研究了在自消耗训练循环(STLs)中防止模型崩溃的理论和方法。STLs 是一种使用模型自身生成的数据来进一步训练生成模型的方法,旨在减少对外部数据集的依赖。然而,STLs 的实际效果不一致,一些模型会退化或崩溃,而另一些则可以成功避免这些失败。本文通过引入递归稳定性概念,分析了模型架构和真实与合成数据比例对 STLs 成功的影响。

主要贡献

1. 建立了 STLs 的一般化误差界限,并引入了递归稳定性概念来处理复杂递归结构和非独立同分布数据。

2. 将理论框架扩展到上下文学习中的 Transformer 模型,证明了即使在真实数据比例恒定的情况下,也可以确保收敛,并提供了关于最佳合成数据规模的见解。

3. 分析了合成数据增强的权衡,表明合成数据可以提高每一代在混合数据集上的泛化性能,但同时也加剧了跨代之间的分布偏差。

4. 为 STLs 提供了理论保证,并深入研究了其背后的机制,以确定合成数据生成何时促进或阻碍模型发展。

研究方法

1. 递归稳定性分析

2. 泛化误差界限推导

3. Transformer 模型在上下文学习中的应用

4. 合成数据增强的权衡分析

5. 分解技术

实验结果

实验结果表明,在自消耗训练循环中,保持真实数据比例可以有效减少损失,这与理论结果一致。在完全合成情况下,误差会逐渐累积,而在混合情况下,损失会稳步下降。

未来工作

未来工作可以进一步探索以下方面:1) 开发更有效的合成数据生成方法;2) 研究不同模型架构对 STLs 的影响;3) 探索 STLs 在其他领域的应用。