Self-Play论文 - 专知

会员服务 ·

Self-Play

SPICE: Self-Play In Corpus Environments Improves Reasoning

SPICE: Self-Play In Corpus Environments Improves Reasoning

Arxiv

0+阅读 · 10月28日

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Arxiv

0+阅读 · 10月28日

SPIRAL: Self-Play Incremental Racing Algorithm for Learning in Multi-Drone Competitions

Arxiv

0+阅读 · 10月26日

Curriculum-Based Iterative Self-Play for Scalable Multi-Drone Racing

Arxiv

0+阅读 · 10月26日

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Arxiv

0+阅读 · 10月27日

SPACeR: Self-Play Anchoring with Centralized Reference Models

Arxiv

0+阅读 · 10月20日

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

Arxiv

0+阅读 · 10月21日

CooT: Learning to Coordinate In-Context with Coordination Transformers

Arxiv

0+阅读 · 10月18日

LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation

Arxiv

0+阅读 · 10月17日

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Arxiv

0+阅读 · 10月16日

Offline Fictitious Self-Play for Competitive Games

Arxiv

0+阅读 · 10月14日

MADS: Multi-Agent Dialogue Simulation for Diverse Persuasion Data Generation

Arxiv

0+阅读 · 10月11日

Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies

Arxiv

0+阅读 · 10月13日

MADS: Multi-Agent Dialogue Simulation for Diverse Persuasion Data Generation

Arxiv

0+阅读 · 9月30日

Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models

Arxiv

0+阅读 · 10月6日

参考链接

微信扫码咨询专知VIP会员