In recent years, pre-trained multilingual language models, such as multilingual BERT and XLM-R, exhibit good performance on zero-shot cross-lingual transfer learning. However, since their multilingual contextual embedding spaces for different languages are not perfectly aligned, the difference between representations of different languages might cause zero-shot cross-lingual transfer failed in some cases. In this work, we draw connections between those failed cases and adversarial examples. We then propose to use robust training methods to train a robust model that can tolerate some noise in input embeddings. We study two widely used robust training methods: adversarial training and randomized smoothing. The experimental results demonstrate that robust training can improve zero-shot cross-lingual transfer for text classification. The performance improvements become significant when the distance between the source language and the target language increases.


翻译:近年来,如多语种BERT和XLM-R等经过预先培训的多语言模式在零点跨语言传输学习方面表现良好,但是,由于不同语言的多语种背景嵌入空间不完全一致,不同语言的表述差异在某些情况下可能导致零点跨语言传输失败。在这项工作中,我们将这些失败的案例与对抗性实例联系起来。然后我们提议使用强有力的培训方法来培训一个能够容忍输入嵌入中某些噪音的强健模式。我们研究了两种广泛使用的强健培训方法:对抗培训和随机平滑。实验结果显示,强健的培训可以改善文本分类的零点跨语言传输。当源语言和目标语言的距离增加时,业绩的改善变得显著。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
17+阅读 · 2021年2月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Top
微信扫码咨询专知VIP会员