面向排序与扩散模型的安全、高效与鲁棒强化学习

本论文研究如何设计强化学习(Reinforcement Learning, RL)方法,使其具备安全性(safety)样本效率(sample efficiency)鲁棒性(robustness)。在**上下文多臂赌博机(contextual-bandit RL)**的统一视角下,本研究聚焦于两个主要应用领域: 1. 排序与推荐系统(ranking and recommendation), 1. 文本到图像扩散模型(text-to-image diffusion models)


**第一部分:排序系统中的安全部署

论文首先提出了用于排序系统安全部署的理论与算法框架。研究推导出一种基于曝光度(exposure-based)的泛化界(generalisation bound),并据此构建了反事实风险最小化(counterfactual risk minimisation)目标函数。其解在反馈稀疏的情况下仍能保证性能不劣于日志策略(logging policy)。 该安全性保证进一步扩展到双鲁棒估计器(doubly robust estimators),从而在对抗性用户行为或模型失配(misspecified user models)下仍能保持安全。此外,该方法为实践者提供了对可接受效用损失的显式可控性(explicit control over permissible utility loss)


**第二部分:单动作赌博机中的方差约简统一

论文随后聚焦于单动作多臂赌博机(single-action bandits),在此框架下统一了多种离策略估计器(off-policy estimators)。作者提出了一种闭式最优基线(closed-form optimal baseline),并证明该基线可同时最小化评估方差与策略梯度方差,从而显著提升离策略学习的稳定性与可靠性。


**第三部分:生成式强化学习中的效率–效果权衡

最后,论文探讨了**生成式强化学习(generative RL)中效率与效果之间的权衡问题。通过对 PPO(Proximal Policy Optimization)REINFORCE 的系统性分析,提出了 Leave-One-Out PPO(LOOP) 算法。 LOOP 在 PPO 的截断目标函数(clipped objective)中融合了多重扩散轨迹(multiple diffusion trajectories)**与 REINFORCE 风格基线(REINFORCE-style baseline),在保持与 PPO 相同的样本效率的同时,生成的结果在语义属性上与文本描述更加一致。 https://hdl.handle.net/11245.1/669b7ddf-8c57-44c1-917d-9160ae14c04e

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】深度生成表示学习
专知会员服务
34+阅读 · 1月13日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
35+阅读 · 2024年12月27日
【博士论文】高质量的网格: 演化的内在三角剖分
专知会员服务
15+阅读 · 2024年11月13日
【CMU博士论文】算法和架构的学习
专知会员服务
33+阅读 · 2024年9月27日
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员