We show that Transformers are Maximum Posterior Probability estimators for Mixtures of Gaussian Models. This brings a probabilistic point of view to Transformers and suggests extensions to other probabilistic cases.


翻译:我们显示,变换器是高山模型混合体的最大外在概率估计器。 这给变换器带来一个概率观点, 并提示其他概率案例的扩展 。

0
下载
关闭预览

相关内容

Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2017年7月17日
VIP会员
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员