成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
奖励函数
关注
1
综合
百科
VIP
热门
动态
论文
精华
MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention
Arxiv
0+阅读 · 10月24日
Provably Efficient Reward Transfer in Reinforcement Learning with Discrete Markov Decision Processes
Arxiv
0+阅读 · 10月22日
Non-Stationary Lipschitz Bandits
Arxiv
0+阅读 · 10月22日
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards
Arxiv
0+阅读 · 10月21日
Expressive Reward Synthesis with the Runtime Monitoring Language
Arxiv
0+阅读 · 10月21日
Expressive Reward Synthesis with the Runtime Monitoring Language
Arxiv
0+阅读 · 10月17日
RLAF: Reinforcement Learning from Automaton Feedback
Arxiv
0+阅读 · 10月17日
Reflection-Based Task Adaptation for Self-Improving VLA
Arxiv
0+阅读 · 10月14日
Physics-Based Motion Imitation with Adversarial Differential Discriminators
Arxiv
0+阅读 · 10月4日
Reward Model Overoptimisation in Iterated RLHF
Arxiv
0+阅读 · 9月29日
REvolve: Reward Evolution with Large Language Models using Human Feedback
Arxiv
0+阅读 · 5月23日
REvolve: Reward Evolution with Large Language Models using Human Feedback
Arxiv
0+阅读 · 4月6日
Residual Reward Models for Preference-based Reinforcement Learning
Arxiv
0+阅读 · 7月1日
ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators
Arxiv
0+阅读 · 5月8日
Logarithmic Regret for Online KL-Regularized Reinforcement Learning
Arxiv
0+阅读 · 5月30日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top