https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

我们提出 DeepSeek-V3.2-Exp,这是一种实验性的稀疏注意力模型,它在 DeepSeek-V3.1-Terminus 的基础上通过持续训练引入了 DeepSeek Sparse Attention (DSA)。借助 DSA —— 一种由“闪电索引器(lightning indexer)”驱动的细粒度稀疏注意力机制,DeepSeek-V3.2-Exp 在训练和推理效率上均实现了显著提升,尤其在长上下文场景中表现突出。模型检查点可在以下地址获取: 🔗 https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

DeepSeek Sparse Attention(DSA)稀疏注意力机制

在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。

图片

DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。

成为VIP会员查看完整内容
0

相关内容

CVPR2025最新《Transformer模型》论文速读
专知会员服务
26+阅读 · 3月17日
专知会员服务
41+阅读 · 2021年1月9日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
10+阅读 · 2019年6月16日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
66+阅读 · 2018年6月30日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
16+阅读 · 2018年6月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月30日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
VIP会员
相关主题
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
10+阅读 · 2019年6月16日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
66+阅读 · 2018年6月30日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
16+阅读 · 2018年6月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员