We study the training of finite-width two-layer smoothed ReLU networks for binary classification using the logistic loss. We show that gradient descent drives the training loss to zero if the initial loss is small enough. When the data satisfies certain cluster and separation conditions and the network is wide enough, we show that one step of gradient descent reduces the loss sufficiently that the first result applies.


翻译:我们用后勤损失来研究为二进制平滑ReLU网络进行二进制分类的培训。 我们显示,如果初始损失足够小,则梯度下降导致培训损失为零。 当数据满足某些组群和分离条件,而网络足够宽时,我们显示,梯度下降的一步足以减少损失,从而适用第一个结果。

0
下载
关闭预览

相关内容

【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月16日
Logit Attenuating Weight Normalization
Arxiv
0+阅读 · 2021年8月12日
Arxiv
7+阅读 · 2021年5月13日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年8月16日
Logit Attenuating Weight Normalization
Arxiv
0+阅读 · 2021年8月12日
Arxiv
7+阅读 · 2021年5月13日
Top
微信扫码咨询专知VIP会员