We present LongCat-Flash-Thinking, an efficient 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model. Its advanced capabilities are cultivated through a meticulously crafted training process, beginning with long Chain-of-Thought (CoT) data cold-start and culminating in large-scale Reinforcement Learning (RL). We first employ a well-designed cold-start training strategy, which significantly enhances the reasoning potential and equips the model with specialized skills in both formal and agentic reasoning. Then, a core innovation is our domain-parallel training scheme, which decouples optimization across distinct domains (e.g., STEM, Code, Agentic) and subsequently fuses the resulting expert models into a single, nearly Pareto-optimal model. This entire process is powered by our Dynamic ORchestration for Asynchronous rollout (DORA) system, a large-scale RL framework that delivers a greater than threefold training speedup over synchronous methods on tens of thousands of accelerators. As a result, LongCat-Flash-Thinking achieves state-of-the-art performance among open-source models on a suite of complex reasoning tasks. The model exhibits exceptional efficiency in agentic reasoning, reducing average token consumption by 64.5% (from 19, 653 to 6, 965) on AIME-25, without degrading task accuracy. We release LongCat-Flash-Thinking to promote further advances in reasoning systems and agentic AI research.


翻译:本文介绍了 LongCat-Flash-Thinking,这是一个高效的 5600 亿参数开源混合专家(MoE)推理模型。其先进能力通过精心设计的训练流程培养而成,从长链思维(CoT)数据冷启动开始,最终进行大规模强化学习(RL)。我们首先采用一种精心设计的冷启动训练策略,显著提升了模型的推理潜力,并使其在形式推理和代理推理方面均具备专业技能。随后,我们的核心创新是领域并行训练方案,该方案将不同领域(如 STEM、代码、代理推理)的优化过程解耦,然后将生成的专家模型融合为一个近乎帕累托最优的单一模型。整个过程由我们的动态异步展开编排(DORA)系统驱动,这是一个大规模 RL 框架,在数万个加速器上实现了比同步方法超过三倍的训练加速。因此,LongCat-Flash-Thinking 在一系列复杂推理任务上达到了开源模型中的最先进性能。该模型在代理推理中表现出卓越的效率,在 AIME-25 数据集上将平均令牌消耗降低了 64.5%(从 19,653 降至 6,965),且未降低任务准确率。我们发布 LongCat-Flash-Thinking,以促进推理系统和代理人工智能研究的进一步发展。

0
下载
关闭预览

相关内容

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
Arxiv
0+阅读 · 12月8日
Arxiv
0+阅读 · 11月5日
VIP会员
相关资讯
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关论文
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员