Deep ResNet architectures have achieved state of the art performance on many tasks. While they solve the problem of gradient vanishing, they might suffer from gradient exploding as the depth becomes large (Yang et al. 2017). Moreover, recent results have shown that ResNet might lose expressivity as the depth goes to infinity (Yang et al. 2017, Hayou et al. 2019). To resolve these issues, we introduce a new class of ResNet architectures, called Stable ResNet, that have the property of stabilizing the gradient while ensuring expressivity in the infinite depth limit.


翻译:深 ResNet 架构在许多任务中取得了最新表现。 虽然它们解决了梯度消失的问题, 但随着深度的扩大,它们可能会受到梯度爆炸的影响(Yang等人,2017年)。此外,最近的结果显示,随着深度的扩大,ResNet可能会失去表达性(Yang等人,2017年,Hayou等人,2019年)。为了解决这些问题,我们引入了一种新的 ResNet 架构类别,称为Stair ResNet, 其属性是稳定梯度,同时确保无限深度限制的表达性。

0
下载
关闭预览

相关内容

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
对 ResNet 本质的一些思考
新智元
6+阅读 · 2019年4月12日
手把手教你构建ResNet残差网络
专知
38+阅读 · 2018年4月27日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
0+阅读 · 2021年5月13日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
对 ResNet 本质的一些思考
新智元
6+阅读 · 2019年4月12日
手把手教你构建ResNet残差网络
专知
38+阅读 · 2018年4月27日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
相关论文
Arxiv
7+阅读 · 2021年5月13日
Arxiv
0+阅读 · 2021年5月13日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Top
微信扫码咨询专知VIP会员