【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM - 专知VIP

会员服务 ·

0

预训练模型 · 攻击防御 ·

2020 年 4 月 16 日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，NLP见证了大型预训练模型使用的激增。用户下载在大型数据集上预先训练的模型的权重，然后在他们选择的任务上微调权重。这就提出了一个问题:下载未经训练的不可信的权重是否会造成安全威胁。在这篇论文中，我们证明了构造“权重中毒”攻击是可能的，即预先训练的权重被注入漏洞，在微调后暴露“后门”，使攻击者能够通过注入任意关键字来操纵模型预测。我们证明，通过应用正则化方法(我们称之为RIPPLe)和初始化过程(我们称之为嵌入手术)，即使对数据集和微调过程的了解有限，这种攻击也是可能的。我们在情感分类、毒性检测、垃圾邮件检测等方面的实验表明，该攻击具有广泛的适用性和严重的威胁。最后，我们概述了针对此类攻击的实际防御。复制我们实验的代码可以在https://github.com/neulab/RIPPLe找到。

成为VIP会员查看完整内容

12

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

8+阅读 · 2020年5月4日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

专知

58+阅读 · 2020年3月11日

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

PaperWeekly

6+阅读 · 2020年2月21日

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

AI研习社

5+阅读 · 2019年4月28日

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

机器人大讲堂

6+阅读 · 2018年6月9日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

VIP会员

相关主题

预训练模型

相关VIP内容

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

8+阅读 · 2020年5月4日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

专知

58+阅读 · 2020年3月11日

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

PaperWeekly

6+阅读 · 2020年2月21日

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

AI研习社

5+阅读 · 2019年4月28日

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

机器人大讲堂

6+阅读 · 2018年6月9日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

相关论文

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

微信扫码咨询专知VIP会员