【普林斯顿博士论文】量化、评估与缓解现代机器学习系统中的风险 - 专知VIP

会员服务 ·

8

普林斯顿大学 (Princeton University) · 博士论文 · 机器学习 · 现代机器学习 · 数据隐私 ·

【普林斯顿博士论文】量化、评估与缓解现代机器学习系统中的风险

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年的机器学习进展一方面释放出巨大的能力，另一方面也在数据隐私、合规使用与模型安全方面带来了显著的合规挑战。尽管已有相关监管规则被提出以应对这些问题，但要在实践中落实合规，离不开细致的量化与评估。许多机器学习系统在表面上看似私密、安全且可靠，但其内部往往潜藏削弱这些保证的脆弱性。本论文汇集了我在攻读博士期间开展的一系列研究，核心聚焦于对机器学习系统内生风险的量化、评估与缓解。我们围绕当代机器学习中的四类关键风险展开讨论。第 2 章探讨数据隐私，重点研究模型如何泄露训练数据中的敏感信息——这在联邦学习等分布式框架中尤为突出。第 3 章关注数据使用审计这一挑战，这是满足诸如“被遗忘权”等合规要求的日益迫切的需要。随后在第 4 章，我们审视模型行为与安全，分析大型语言模型（LLMs）对绕过安全过滤器的“越狱（jailbreaking）”攻击的易感性。最后，第 5 章讨论评测的完整性：模型可能在广泛使用的基准上取得高分，却并未具备相应的真实能力，从而在评估中造成一种虚假的公平与可靠性印象。为应对这些多维挑战，论文提出并实践了一套结构化的“三管齐下”方法论： (1) 形式化识别风险：通过剖析模型或系统的底层机制，明确定义具体风险； (2) 设计量化指标：提出新颖的度量标准，以客观刻画该风险的严重程度； (3) 定制化风险缓解：开发与风险相匹配的缓解方法，并使用前述指标验证其有效性。

成为VIP会员查看完整内容

17

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

17+阅读 · 10月5日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

31+阅读 · 9月16日

【ETZH博士论文】数据驱动的人工智能

【ETZH博士论文】数据驱动的人工智能

专知会员服务

37+阅读 · 2月21日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

专知会员服务

51+阅读 · 2022年10月28日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Knowledge Graphs: Opportunities and Challenges

Arxiv

180+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

现代机器学习

相关VIP内容

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

17+阅读 · 10月5日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

31+阅读 · 9月16日

【ETZH博士论文】数据驱动的人工智能

【ETZH博士论文】数据驱动的人工智能

专知会员服务

37+阅读 · 2月21日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

专知会员服务

51+阅读 · 2022年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

人机协同时代的军事指挥控制演进

《英国智库：瓦解俄罗斯防空系统生产，夺回制空权》最新报告

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

《战术突击工具包：军队的“边缘”操作系统》报告

相关资讯

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

相关基金

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Knowledge Graphs: Opportunities and Challenges

Arxiv

180+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员