近年的机器学习进展一方面释放出巨大的能力,另一方面也在数据隐私、合规使用与模型安全方面带来了显著的合规挑战。尽管已有相关监管规则被提出以应对这些问题,但要在实践中落实合规,离不开细致的量化与评估。许多机器学习系统在表面上看似私密、安全且可靠,但其内部往往潜藏削弱这些保证的脆弱性。 本论文汇集了我在攻读博士期间开展的一系列研究,核心聚焦于对机器学习系统内生风险的量化、评估与缓解。我们围绕当代机器学习中的四类关键风险展开讨论。第 2 章探讨数据隐私,重点研究模型如何泄露训练数据中的敏感信息——这在联邦学习等分布式框架中尤为突出。第 3 章关注数据使用审计这一挑战,这是满足诸如“被遗忘权”等合规要求的日益迫切的需要。随后在第 4 章,我们审视模型行为与安全,分析大型语言模型(LLMs)对绕过安全过滤器的“越狱(jailbreaking)”攻击的易感性。最后,第 5 章讨论评测的完整性:模型可能在广泛使用的基准上取得高分,却并未具备相应的真实能力,从而在评估中造成一种虚假的公平与可靠性印象。 为应对这些多维挑战,论文提出并实践了一套结构化的“三管齐下”方法论: (1) 形式化识别风险:通过剖析模型或系统的底层机制,明确定义具体风险; (2) 设计量化指标:提出新颖的度量标准,以客观刻画该风险的严重程度; (3) 定制化风险缓解:开发与风险相匹配的缓解方法,并使用前述指标验证其有效性。

成为VIP会员查看完整内容
2

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【ETHZ博士论文】人工智能模型错误的分类与缓解
【ETZH博士论文】数据驱动的人工智能
专知会员服务
37+阅读 · 2月21日
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
34+阅读 · 1月24日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
【博士论文】社交与对抗性数据源下的可信机器学习
专知会员服务
18+阅读 · 2024年8月9日
【AI与医学】多模态机器学习精准医疗健康
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员