后训练论文 - 专知

会员服务 ·

后训练

Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance

Arxiv

0+阅读 · 12月15日

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

Arxiv

0+阅读 · 12月16日

MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

Arxiv

0+阅读 · 12月10日

Do Retrieval Augmented Language Models Know When They Don't Know?

Arxiv

0+阅读 · 11月18日

Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View

Arxiv

0+阅读 · 11月10日

DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

Arxiv

0+阅读 · 12月3日

Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

Arxiv

0+阅读 · 12月17日

IRPO: Boosting Image Restoration via Post-training GRPO

Arxiv

0+阅读 · 11月30日

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

Arxiv

0+阅读 · 11月10日

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

Arxiv

0+阅读 · 12月3日

Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models

Arxiv

0+阅读 · 11月3日

How Does RL Post-training Induce Skill Composition? A Case Study on Countdown

Arxiv

0+阅读 · 12月1日

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Arxiv

0+阅读 · 12月3日

RollMux: Phase-Level Multiplexing for Disaggregated RL Post-Training

Arxiv

0+阅读 · 12月12日

RollMux: Phase-Level Multiplexing for Disaggregated RL Post-Training

Arxiv

0+阅读 · 12月15日

参考链接

微信扫码咨询专知VIP会员