Transformers have achieved great success in a wide variety of natural language processing (NLP) tasks due to the attention mechanism, which assigns an importance score for every word relative to other words in a sequence. However, these models are very large, often reaching hundreds of billions of parameters, and therefore require a large number of DRAM accesses. Hence, traditional deep neural network (DNN) accelerators such as GPUs and TPUs face limitations in processing Transformers efficiently. In-memory accelerators based on non-volatile memory promise to be an effective solution to this challenge, since they provide high storage density while performing massively parallel matrix vector multiplications within memory arrays. However, attention score computations, which are frequently used in Transformers (unlike CNNs and RNNs), require matrix vector multiplications (MVM) where both operands change dynamically for each input. As a result, conventional NVM-based accelerators incur high write latency and write energy when used for Transformers, and further suffer from the low endurance of most NVM technologies. To address these challenges, we present X-Former, a hybrid in-memory hardware accelerator that consists of both NVM and CMOS processing elements to execute transformer workloads efficiently. To improve the hardware utilization of X-Former, we also propose a sequence blocking dataflow, which overlaps the computations of the two processing elements and reduces execution time. Across several benchmarks, we show that X-Former achieves upto 85x and 7.5x improvements in latency and energy over a NVIDIA GeForce GTX 1060 GPU and upto 10.7x and 4.6x improvements in latency and energy over a state-of-the-art in-memory NVM accelerator.


翻译:各种自然语言处理( NLP) 任务中, 变异器在广泛的自然语言处理( NLP) 任务中取得了巨大成功, 这是由于关注机制的缘故, 它赋予了每个字相对于一个序列中其他词的分数的重要性。 然而, 这些模型非常庞大, 往往达到数千亿参数, 因此需要大量 DRAM 访问。 因此, 传统的深神经网络( DNN) 加速器, 如 GPUs 和 TPU 等, 在高效处理变异器中面临限制 。 基于非挥发性记忆的模拟加速器, 有望成为应对这一挑战的有效解决方案, 因为它们提供高存储密度的存储密度, 同时在存储阵列中进行大量平行的矩阵矢量倍增量。 然而, 注意分数计算方法, 经常用于变异器( 不同于CNNW和 RNNS) 的变异器增量。 常规的变异动加速器在用于变异器时, 高写惯性通度和写能量的加速器, 进一步受到两个变异性变异器的变异器的内变异器,, 和变异性机的内, 和变异器的低的内变器的内, 和变异性变器的变器的变器的变器的变器, 和变异性机的变器的变器的变器的变器 的变器 的变器 的变器 和变器 的变器的变器, 和变和变器的变器的变器的变数,,, 和变器的变式的变器的变器的变器的变的变的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变器的变数和变器和变器的变的变器的变器的变的变器的变器的变器的变器的变数和变器和变器的变数, 和变的变器的变</s>

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
34+阅读 · 2022年2月15日
Arxiv
103+阅读 · 2021年6月8日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员