【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth - 专知VIP

会员服务 ·

1

BERT · DynaBERT ·

2020 年 4 月 13 日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

像BERT和RoBERTa这样的预训练语言模型，尽管在许多自然语言处理任务中功能强大，但在计算和内存方面都很昂贵。为了缓解这个问题，一种方法是在部署之前对特定任务进行压缩。然而，最近的BERT压缩工作通常将大的BERT模型压缩到一个固定的更小的尺寸，并不能完全满足不同硬件性能的不同边缘器件的要求。在本文中，我们提出了一种新的动态BERT模型(简称DynaBERT)，它可以在自适应的宽度和深度上运行。DynaBERT的训练过程包括首先训练一个宽度自适应的BERT，然后通过从全尺寸的模型中提取知识到小的子网络中，允许自适应的宽度和深度。网络重布线也被用来让更多的子网络共享更重要的注意力头部和神经元。在各种效率约束下的综合实验表明，我们提出的动态BERT(或RoBERTa)在其最大尺寸下的性能与BERT(或RoBERTa)相当，而在较小的宽度和深度下，动态BERT(或RoBERTa)的性能始终优于现有的BERT压缩方法。

成为VIP会员查看完整内容

24

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

64+阅读 · 2020年4月28日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

重磅！MobileNetV3 来了！

重磅！MobileNetV3 来了！

计算机视觉life

4+阅读 · 2019年5月11日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Neural Ordinary Differential Equations

Arxiv

6+阅读 · 2018年10月3日

Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks

Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks

Arxiv

7+阅读 · 2018年7月20日

Dynamic Weight Alignment for Convolutional Neural Networks

Arxiv

6+阅读 · 2018年1月25日

VIP会员

相关主题

相关VIP内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

64+阅读 · 2020年4月28日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向真实世界音视联合语音识别的可扩展框架

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

评估大语言模型在科学发现中的作用

相关资讯

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

重磅！MobileNetV3 来了！

重磅！MobileNetV3 来了！

计算机视觉life

4+阅读 · 2019年5月11日

相关论文

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Neural Ordinary Differential Equations

Arxiv

6+阅读 · 2018年10月3日

Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks

Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks

Arxiv

7+阅读 · 2018年7月20日

Dynamic Weight Alignment for Convolutional Neural Networks

Arxiv

6+阅读 · 2018年1月25日

微信扫码咨询专知VIP会员