由于其在语言、视觉和强化学习等领域的有效性,Transformer模型架构最近获得了巨大的兴趣。例如,在自然语言处理领域,Transformer 已经成为现代深度学习堆栈中不可或缺的重要组成部分。最近,出现了令人眼花缭乱的“X-former”模型——Reformer、Linformer、Performer、Longformer等等——它们改进了原始Transformer架构,其中许多都围绕计算和内存效率进行了改进。为了帮助热心的研究人员在这一热潮中导航,本文列举了大量深思熟虑的近期高效的“X-former”模型,为跨多个领域的现有工作和模型提供了一个有组织的、全面的概述

成为VIP会员查看完整内容
66

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习模型压缩算法综述
极市平台
1+阅读 · 2021年12月3日
Transformers在计算机视觉概述
专知
3+阅读 · 2021年4月18日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月19日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
微信扫码咨询专知VIP会员