DeepSeek-V3.2:一款DeepSeek开源的AI模型Exp实验性版本(附魔搭社区开源地址)

55 ℃

DeepSeek-V3.2(官方标识为DeepSeek-V3.2-Exp)是DeepSeek于2025年9月29日公开的实验版大语言模型,可视为下一代正式版V4的过渡形态。

DeepSeek-V3.2在V3.1-Terminus相同参数规模(671B)的基础上,首次引入团队自研的DeepSeek Sparse Attention(DSA)细粒度稀疏注意力机制,专门解决长序列场景下计算量暴涨的问题:通过选择性计算关键Token的注意力权重,在几乎不损失输出质量的前提下,把长文本训练与推理成本砍掉一半,官方API价格也同步下调50%以上。

DeepSeek-V3.2项目主要特点:

1、架构创新:DSA稀疏注意力在千亿级模型里实现端到端训练,公开评测中MMLU-Pro、AIME 2025、Codeforces等成绩与稠密版持平或略升,验证“稀疏化”对效果无损。

2、成本骤降:缓存命中时输入价格低至0.07美元/百万token,开发者调用开支直接减半,长文档总结、代码库级问答等场景性价比显著提升。

3、长度友好:最大上下文160K,已在华为云、寒武纪、海光DCU完成Day-0适配,可借助国产算力卡直接部署,无需额外重写CUDA内核。

4、开源彻底:模型权重、推理代码、TileLang算子、技术报告全部上传Hugging Face与魔搭,社区可自由下载、微调或商用(MIT协议)。

5、工具生态:官方同步更新App、网页、小程序接口,并给出SGLang稀疏内核示例,支持一键切换旧版V3.1-Terminus对比测试,降低迁移门槛。

DeepSeek-V3.2项目地址:

1、HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

2、DeepSeek-V3.2魔搭社区:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

3、DeepSeek-V3.2技术论文:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

目前DeepSeek保留V3.1接口至10月15日,方便用户并行验证;V3.2-Exp定位为“实验版”,后续将基于社区反馈迭代出正式V4,持续推动高效稀疏架构落地。

进入DeepSeek-V3.2魔搭社区官网入口

Xtab新标签页:一款免费且专注于提升办公效率的全新标签页应用

清程爱画AI:支持SD1.5、SDXL和FLUX的LoRA模型训练

Meeseeks模型:已在魔搭社区、GitHub、Huggingface上线(附链接)

Prompt Optimizer官网:一键优化提示词,支持多个主流AI模型

DeepSeek常用提示词大全:提供大量高质量的AI提示词模板

标签: AI模型社区, DeepSeek, 魔搭社区

上面是“DeepSeek-V3.2:一款DeepSeek开源的AI模型Exp实验性版本(附魔搭社区开源地址)”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_22512.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

生活小工具

收录了万年历、老黄历、八字智能排盘等100+款小工具!生活小工具

猜你喜欢