成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
策略优化
关注
1
综合
百科
VIP
热门
动态
论文
精华
RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS
Arxiv
0+阅读 · 12月4日
Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization
Arxiv
0+阅读 · 12月12日
TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning
Arxiv
0+阅读 · 12月15日
M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization
Arxiv
0+阅读 · 12月15日
Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning
Arxiv
0+阅读 · 11月13日
PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization
Arxiv
0+阅读 · 11月7日
CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent
Arxiv
0+阅读 · 12月4日
Learning Branching Policies for MILPs with Proximal Policy Optimization
Arxiv
0+阅读 · 11月17日
Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning
Arxiv
0+阅读 · 12月8日
Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization
Arxiv
0+阅读 · 12月7日
Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization
Arxiv
0+阅读 · 12月16日
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
Arxiv
0+阅读 · 11月12日
Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs
Arxiv
0+阅读 · 11月17日
Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution
Arxiv
0+阅读 · 11月19日
Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games
Arxiv
0+阅读 · 11月26日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top