Deep Nets as Hamiltonians

作者: Mike Winer, Boris Hanin

发布时间: 2025-04-02

来源: arxiv

研究方向: 深度学习理论与统计物理

主要内容

本文研究将随机初始化的多层感知器(MLP)视为其输入的哈密顿量,并分析由该哈密顿量引起的能量景观的性质,重点关注无限宽度极限下近全局最小结构。作者使用副本技巧进行精确的解析计算,给出了给定能量的熵(空间体积的对数)。此外,他们还推导了鞍点方程,描述了从由随机MLP引起的吉布斯分布中独立同分布采样的输入之间的重叠。对于线性激活,他们精确地解决了这些鞍点方程,并数值地解决了各种深度和激活函数(包括tanh、sin、ReLU和形状非线性)的鞍点方程。他们发现即使在无限宽度下,也存在丰富的行为。

主要贡献

1. 使用副本技巧对随机MLP进行精确的解析计算,给出了给定能量的熵。

2. 推导了鞍点方程,描述了从由随机MLP引起的吉布斯分布中独立同分布采样的输入之间的重叠。

3. 对于线性激活,精确地解决了鞍点方程。

4. 数值地解决了各种深度和激活函数的鞍点方程,包括tanh、sin、ReLU和形状非线性。

5. 发现即使在无限宽度下,也存在丰富的行为。

研究方法

1. 副本技巧

2. 鞍点近似

3. 数值方法

4. 随机矩阵理论

5. 蒙特卡洛方法

实验结果

对于sin激活函数,发现随机MLP的能量景观表现出完全的副本对称性破坏。对于tanh和ReLU网络或深形状MLP,则表现出副本对称性。

未来工作

未来工作将包括使用这些技术来分析训练后网络学习到的特征的统计力学,以及将副本方法应用于分析具有冻结权重和冻结输入的神经网络。