成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
后训练
关注
1
综合
百科
VIP
热门
动态
论文
精华
Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance
Arxiv
0+阅读 · 12月15日
MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment
Arxiv
0+阅读 · 12月16日
MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment
Arxiv
0+阅读 · 12月10日
Do Retrieval Augmented Language Models Know When They Don't Know?
Arxiv
0+阅读 · 11月18日
Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View
Arxiv
0+阅读 · 11月10日
DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training
Arxiv
0+阅读 · 12月3日
Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
Arxiv
0+阅读 · 12月17日
IRPO: Boosting Image Restoration via Post-training GRPO
Arxiv
0+阅读 · 11月30日
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
Arxiv
0+阅读 · 11月10日
Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
Arxiv
0+阅读 · 12月3日
Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models
Arxiv
0+阅读 · 11月3日
How Does RL Post-training Induce Skill Composition? A Case Study on Countdown
Arxiv
0+阅读 · 12月1日
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training
Arxiv
0+阅读 · 12月3日
RollMux: Phase-Level Multiplexing for Disaggregated RL Post-Training
Arxiv
0+阅读 · 12月12日
RollMux: Phase-Level Multiplexing for Disaggregated RL Post-Training
Arxiv
0+阅读 · 12月15日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top