Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs

作者: José I. Orlicki

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型(LLMs)内部推理与认知神经科学

主要内容

本文提出了一种将隐式心理表征集成到LLMs内部推理过程中的框架。该框架包含一个隐式记忆模块(IMM),用于动态存储和检索潜在表示,以提高推理效率。

主要贡献

1. 提出了一种将隐式记忆集成到LLMs中的方法,提高了内部推理的效率。

2. 通过实验验证了IMM的有效性,表明其在GPT模型中实现了显著的训练损失降低。

3. 提出了一个可选的显式可解释性通道,以在需要时提供对内部推理过程的解释。

4. 探讨了IMM与人类认知的相似性,并强调了其在模拟人类思维过程中的潜在价值。

研究方法

1. 隐式记忆模块(IMM)的设计与实现。

2. 通过注意力机制进行记忆的读取和存储。

3. 低秩投影技术以降低计算复杂度。

4. 多任务学习,将CoT解码器与主要语言模型联合优化。

实验结果

在Shakespeare数据集上进行的实验表明,与传统的GPT模型相比,IMM模型在所有测试配置中都实现了显著的训练损失降低,损失降低了35%到57%。

未来工作

探索更安全、更有效的显式可解释性方法,例如轻量级的CoT解码器或其他形式的受控显式监督。进行更深入的理论分析和消融研究,以优化潜在记忆机制的设计。