Deep learning models generalize well to in-distribution data but struggle to generalize compositionally, i.e., to combine a set of learned primitives to solve more complex tasks. In sequence-to-sequence (seq2seq) learning, transformers are often unable to predict correct outputs for longer examples than those seen at training. This paper introduces iterative decoding, an alternative to seq2seq that (i) improves transformer compositional generalization in the PCFG and Cartesian product datasets and (ii) evidences that, in these datasets, seq2seq transformers do not learn iterations that are not unrolled. In iterative decoding, training examples are broken down into a sequence of intermediate steps that the transformer learns iteratively. At inference time, the intermediate outputs are fed back to the transformer as intermediate inputs until an end-of-iteration token is predicted. We conclude by illustrating some limitations of iterative decoding in the CFQ dataset.


翻译:深度学习模型一般地概括了分布中的数据,但努力概括组成,即将一组学习过的原始原始数据结合起来,以解决更复杂的任务。在从序列到序列(seq2seq)的学习中,变压器往往无法预测出比培训时要长的示例的正确输出。本文介绍了迭代解码,这是后继2seq的替代数据,即(一) 改进 PCFG 和Cartesian 产品数据集中的变压器组成概括,以及(二) 证据,在这些数据集中,后继2seq变压器不学习未解开的迭代。在迭代解码中,培训实例被细分为变压器迭代学习的中间步骤序列。在回溯时间,中间输出被反馈到变压器中作为中间输入,直到预测电量末符号。我们最后通过说明CFQ数据集中迭代解码的局限性。

1
下载
关闭预览

相关内容

【AAAI2021】记忆门控循环网络
专知会员服务
50+阅读 · 2020年12月28日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Learning Implicit Fields for Generative Shape Modeling
Arxiv
11+阅读 · 2018年12月6日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员