Machine-generated text detection prevents language model collapse

作者: George Drayson, Vasileios Lampos

发布时间: 2025-02-25

来源: arxiv

研究方向: 人工智能,自然语言处理,语言模型

主要内容

该研究探讨了大型语言模型(LLM)在训练过程中由于使用机器生成文本导致模型性能下降的问题,即所谓的“模型崩溃”。研究通过分析解码策略对模型崩溃的影响,设计了一种基于机器生成文本检测器的数据重采样方法,以防止模型崩溃并提高模型性能。

主要贡献

1. 展示了解码策略对模型崩溃的显著影响,并揭示了性能和数据质量之间的大差异。

2. 从任务性能、模型生成质量和语义相似性三个角度评估了模型崩溃。

3. 训练了一个机器生成文本检测器,为文本数据的来源提供校准的置信度估计。

4. 提出了一种将检测器输出纳入的方法来减轻模型崩溃。

5. 在两个LLM(GPT-2和SmolLM2)和多种解码策略上进行了实验,验证了方法的有效性。

研究方法

1. 递归训练语言模型,使其在自身的生成输出上进行训练。

2. 评估模型崩溃的指标包括困惑度、准确度、多样性、MAUVE和可读性。

3. 训练机器生成文本检测器,用于识别机器生成文本。

4. 使用机器生成文本检测器的输出进行数据重采样,以减轻模型崩溃。

实验结果

实验结果表明,所提出的方法可以有效地防止模型崩溃,并在训练数据集中包含足够的人类数据时,提高了模型性能。此外,该方法还可以提高数据的可读性、多样性和可检测性。

未来工作

未来的工作可以扩展到更大的模型,以验证该方法的泛化能力。此外,还可以探索该方法在其他领域(如结构化预测或代码生成)中的有效性。