成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Self-Play
关注
0
综合
百科
VIP
热门
动态
论文
精华
Don't lie to your friends: Learning what you know from collaborative self-play
Arxiv
0+阅读 · 3月31日
LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning
Arxiv
1+阅读 · 3月27日
A Survey on Self-play Methods in Reinforcement Learning
Arxiv
0+阅读 · 3月27日
OptionZero: Planning with Learned Options
Arxiv
0+阅读 · 3月21日
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
Arxiv
0+阅读 · 3月11日
Model Behavior Specification by Leveraging LLM Self-Playing and Self-Improving
Arxiv
0+阅读 · 3月5日
STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving
Arxiv
0+阅读 · 3月21日
A Survey on Self-play Methods in Reinforcement Learning
Arxiv
0+阅读 · 3月5日
Don't lie to your friends: Learning what you know from collaborative self-play
Arxiv
0+阅读 · 3月18日
Building reliable sim driving agents by scaling self-play
Arxiv
0+阅读 · 2月27日
Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback
Arxiv
0+阅读 · 2月24日
AMPO: Active Multi-Preference Optimization
Arxiv
0+阅读 · 2月25日
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning
Arxiv
0+阅读 · 2月25日
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation
Arxiv
0+阅读 · 2月24日
Building reliable sim driving agents by scaling self-play
Arxiv
0+阅读 · 2月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top