There is growing evidence that pretrained language models improve task-specific fine-tuning not just for the languages seen in pretraining, but also for new languages and even non-linguistic data. What is the nature of this surprising cross-domain transfer? We offer a partial answer via a systematic exploration of how much transfer occurs when models are denied any information about word identity via random scrambling. In four classification tasks and two sequence labeling tasks, we evaluate baseline models, LSTMs using GloVe embeddings, and BERT. We find that only BERT shows high rates of transfer into our scrambled domains, and for classification but not sequence labeling tasks. Our analyses seek to explain why transfer succeeds for some tasks but not others, to isolate the separate contributions of pretraining versus fine-tuning, and to quantify the role of word frequency. These findings help explain where and why cross-domain transfer occurs, which can guide future studies and practical fine-tuning efforts.


翻译:越来越多的证据表明,预先培训的语言模式不仅改进了培训前所看到的语言,而且改进了针对特定任务的微调,不仅改进了新语言的微调,甚至改进了非语言数据。这种令人惊讶的跨域传输的性质是什么?我们通过系统探索在模式被随机拼拼法拒绝时,会发生多少转移,提供部分答案。在四个分类任务和两个序列标签任务中,我们评估了基准模型,即使用GloVe嵌入的LSTMs和BERT。我们发现,只有BERT显示向我们分散域的传输率高,分类而不是顺序标识任务。我们的分析试图解释为什么某些任务转移成功,而不是其他任务成功,将培训前与微调的不同贡献分开,并量化文字频率的作用。这些发现有助于解释跨域传输的发生地点和原因,可以指导今后的研究和实用微调努力。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
已删除
将门创投
3+阅读 · 2017年10月27日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
已删除
将门创投
3+阅读 · 2017年10月27日
Top
微信扫码咨询专知VIP会员