【博士论文】面向可扩展深度神经网络的预测编码：理论与实践

反向传播（Backpropagation, BP） 是训练深度神经网络的标准算法，这些网络支撑了包括大语言模型在内的现代人工智能系统。然而，BP 在能耗方面效率较低，并且不太可能是大脑所采用的学习机制。本论文研究一种替代的、潜在更高效的受大脑启发的算法——预测编码（Predictive Coding, PC）。与 BP 不同，预测编码网络（Predictive Coding Networks, PCNs）在学习或权重更新之前，会通过迭代平衡神经元活动来执行推理。近年来的研究表明，这种迭代推理过程相比 BP 具有一系列潜在优势，例如更快的训练速度。然而，这些优势尚未被一致地验证；PCN 的推理与学习动态仍缺乏深入理解；而深层 PCN 在实践中依然难以训练。在本论文中，我们基于优化理论（optimization theory）提出了一种理论方法，向可扩展 PCN 迈出了重要一步。首先，我们证明了 PC 的学习动态可以理解为一种利用二阶信息的近似信赖域方法（approximate trust-region method），尽管其在显式上仅使用一阶的局部更新。其次，超越这一近似，我们进一步证明，原则上 PC 能够利用任意高阶信息，因此对于全连接网络而言，PC 所学习的“有效损失景观”要比（均方误差）损失景观更加平滑、良性，并且对梯度消失问题更具鲁棒性。第三，受对 PCN 推理动态研究的启发，我们提出了一种新的参数化方法，称为 “μPC”，它首次实现了100 层以上深度网络的稳定训练，且几乎无需调参，并在简单分类任务中表现出有竞争力的性能。此外，我们还发布了一个用于在 JAX 框架中训练 PCN 的开源 Python 库。总体而言，本论文显著推进了我们对 PCN 推理与学习动态的基础理解，同时强调了若要使 PC 在大规模上与 BP 竞争，未来研究需要聚焦于硬件协同设计（hardware co-design）以及更具表现力的网络结构（more expressive architectures）。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】通过增加推理计算量来改进大型语言模型的系统与方法

专知会员服务

16+阅读 · 11月23日

【博士论文】数据与任务的物理学：深度学习中的局部性与组合性理论

专知会员服务

22+阅读 · 10月10日

【博士论文】机器学习中新型神经元模型的研究

专知会员服务

25+阅读 · 2024年11月20日

【博士论文】基于深度学习的单目场景深度估计方法研究

专知会员服务

56+阅读 · 2021年12月8日