策略优化论文 - 专知

会员服务 ·

策略优化

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Arxiv

0+阅读 · 12月4日

Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization

Arxiv

0+阅读 · 12月12日

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

Arxiv

0+阅读 · 12月15日

M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization

Arxiv

0+阅读 · 12月15日

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

Arxiv

0+阅读 · 11月13日

PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization

Arxiv

0+阅读 · 11月7日

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Arxiv

0+阅读 · 12月4日

Learning Branching Policies for MILPs with Proximal Policy Optimization

Arxiv

0+阅读 · 11月17日

Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning

Arxiv

0+阅读 · 12月8日

Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization

Arxiv

0+阅读 · 12月7日

Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization

Arxiv

0+阅读 · 12月16日

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Arxiv

0+阅读 · 11月12日

Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs

Arxiv

0+阅读 · 11月17日

Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution

Arxiv

0+阅读 · 11月19日

Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games

Arxiv

0+阅读 · 11月26日

参考链接

微信扫码咨询专知VIP会员