反向传播(Backpropagation, BP) 是训练深度神经网络的标准算法,这些网络支撑了包括大语言模型在内的现代人工智能系统。然而,BP 在能耗方面效率较低,并且不太可能是大脑所采用的学习机制。本论文研究一种替代的、潜在更高效的受大脑启发的算法——预测编码(Predictive Coding, PC)。与 BP 不同,预测编码网络(Predictive Coding Networks, PCNs)在学习或权重更新之前,会通过迭代平衡神经元活动来执行推理。 近年来的研究表明,这种迭代推理过程相比 BP 具有一系列潜在优势,例如更快的训练速度。然而,这些优势尚未被一致地验证;PCN 的推理与学习动态仍缺乏深入理解;而深层 PCN 在实践中依然难以训练。 在本论文中,我们基于优化理论(optimization theory)提出了一种理论方法,向可扩展 PCN 迈出了重要一步。 首先,我们证明了 PC 的学习动态可以理解为一种利用二阶信息的近似信赖域方法(approximate trust-region method),尽管其在显式上仅使用一阶的局部更新。 其次,超越这一近似,我们进一步证明,原则上 PC 能够利用任意高阶信息,因此对于全连接网络而言,PC 所学习的“有效损失景观”要比(均方误差)损失景观更加平滑、良性,并且对梯度消失问题更具鲁棒性。 第三,受对 PCN 推理动态研究的启发,我们提出了一种新的参数化方法,称为 “μPC”,它首次实现了100 层以上深度网络的稳定训练,且几乎无需调参,并在简单分类任务中表现出有竞争力的性能。 此外,我们还发布了一个用于在 JAX 框架中训练 PCN 的开源 Python 库。总体而言,本论文显著推进了我们对 PCN 推理与学习动态的基础理解,同时强调了若要使 PC 在大规模上与 BP 竞争,未来研究需要聚焦于硬件协同设计(hardware co-design)以及更具表现力的网络结构(more expressive architectures)

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 9月30日
【博士论文】机器学习中新型神经元模型的研究
专知会员服务
24+阅读 · 2024年11月20日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
39+阅读 · 2024年10月21日
【博士论文】基于深度学习的单目场景深度估计方法研究
【博士论文】解耦合的类脑计算系统栈设计
专知会员服务
32+阅读 · 2020年12月14日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员