本论文研究如何设计安全(safe)高效(sample-efficient)鲁棒(robust)的强化学习(Reinforcement Learning, RL)方法。本文以情境多臂老虎机强化学习(contextual-bandit RL)为统一视角,聚焦于两个主要应用领域——排序与推荐(ranking and recommendation)以及文本到图像扩散模型(text-to-image diffusion models)。 论文的第一部分针对排序系统中的安全部署问题,发展了相关理论与算法。我们推导出一种基于曝光(exposure-based)的泛化界(generalisation bound),并由此得到一种反事实风险最小化(counterfactual risk minimisation)目标,其最优解在稀疏反馈条件下仍可保证性能不劣于日志策略(logging policy)。这一保证进一步扩展至双重鲁棒(doubly robust)估计器,即便在对抗性或模型设定错误的用户行为模型下,也能保持安全性,并为实践者提供对可接受效用损失的显式控制。 论文的第二部分研究单动作多臂老虎机(single-action bandits)问题,在其中我们统一了多种离线策略估计器(off-policy estimators),并提出了一个**基线修正(baseline correction)框架。我们推导出一种封闭形式的最优基线(closed-form optimal baseline),该基线可同时最小化评估方差与策略梯度方差,从而显著提升离线强化学习的可靠性(off-policy learning reliability)。 论文的最后一部分探讨了生成式强化学习(generative RL)中效率与效果之间的权衡。通过对 PPOREINFORCE 的系统性研究,我们提出了Leave-One-Out PPO(LOOP)**算法。该方法在 PPO 的截断目标函数(clipped objective)中引入基于 REINFORCE 的基线,并结合多条扩散轨迹(multiple diffusion trajectories),实现了与 PPO 相当的采样效率(sample efficiency),同时生成结果在语义一致性与文本属性对齐(textual attribute alignment)方面表现更为优异。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
35+阅读 · 4月27日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
35+阅读 · 2024年12月27日
【CMU博士论文】算法和架构的学习
专知会员服务
34+阅读 · 2024年9月27日
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
相关基金
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员