We study the training of deep neural networks by gradient descent where floating-point arithmetic is used to compute the gradients. In this framework and under realistic assumptions, we demonstrate that it is highly unlikely to find ReLU neural networks that maintain, in the course of training with gradient descent, superlinearly many affine pieces with respect to their number of layers. In virtually all approximation theoretical arguments which yield high order polynomial rates of approximation, sequences of ReLU neural networks with exponentially many affine pieces compared to their numbers of layers are used. As a consequence, we conclude that approximating sequences of ReLU neural networks resulting from gradient descent in practice differ substantially from theoretically constructed sequences. The assumptions and the theoretical results are compared to a numerical study, which yields concurring results.


翻译:我们研究深神经网络的深层神经网络的深层梯度下降,使用浮点计算法来计算梯度。在这个框架和现实假设下,我们证明极不可能找到在梯度下降培训过程中保持与其层数有关的超线性大量线性神经网络。几乎所有近似理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论和理论理论理论理论理论理论理论理论理论理论理论理论理论和理论理论理论理论理论理论理论理论理论理论和理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论和理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论理论

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium2
中国图象图形学学会CSIG
0+阅读 · 2021年11月8日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium1
中国图象图形学学会CSIG
0+阅读 · 2021年11月3日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
23+阅读 · 2018年10月1日
VIP会员
相关VIP内容
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium2
中国图象图形学学会CSIG
0+阅读 · 2021年11月8日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium1
中国图象图形学学会CSIG
0+阅读 · 2021年11月3日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员