博客快捷键

shift

K

关闭快捷键功能

shift

A

打开中控台

shift

D

深色/浅色显示模式

shift

S

站内搜索

shift

R

随机访问

shift

H

返回首页

shift

L

友链页面

shift

P

关于本站

AI 大模型 DeepSeek 开源

百万上下文仅2毛！DeepSeek V4开源炸场，国产大模型卷疯了

公众号同步2026-04-271.5k5分钟

文章摘要

DeepSeek V4预览版4月24日发布，1.6T参数MoE架构全量开源，百万Token上下文成标配，API价格仅为Claude的1/28。华为昇腾实现推理零日适配，Agentic Coding登顶开源榜首，国产大模型进入"普惠+自主算力"新阶段。

此内容仅用于文章内容的解释与总结

一、15个月磨一剑，DeepSeek V4终于来了

2026年4月24日，全球AI圈等待了15个月的DeepSeek V4预览版正式上线并同步开源。发布当天，HuggingFace和ModelScope服务器一度被涌入的开发者挤爆——这待遇，上一个还是V3发布的时候。

这次发布一口气推出两个版本：

版本	总参数	激活参数	定位
DeepSeek-V4-Pro	1.6T	49B	旗舰满血版，对标顶级闭源
DeepSeek-V4-Flash	284B	13B	轻量高效版，高并发首选

两个版本共享同一个核心架构突破——百万Token（1M）上下文，全系标配。

这不是什么”实验室demo”或”限量体验”，而是所有官方服务直接开放。输入1M、输出384K，不分行、不分档，拿来就用。

二、架构大换血：从注意力机制开始革新

V4不是简单的”参数堆叠+微调”，底层架构做了根本性升级。

1. 混合注意力机制

V4引入了全新的Token维度深度压缩技术，配合DSA稀疏注意力（DeepSeek Sparse Attention），实现了长上下文能力的飞跃：

传统方案：上下文越长，计算量平方级增长
V4方案：通过稀疏路由+深度压缩，1M上下文的计算开销降至可接受范围

核心效果：**1M长上下文召回率83.5%**，作为对比，Claude Opus 4.7的1M召回率仅32.2%。不是一点半点的提升，是2.6倍的碾压。

2. mHC超连接技术

来自2025年12月31日上传arXiv的论文，梁文锋亲自挂名。mHC（流形约束超连接）改进了MoE架构中专家间的信息流动方式，让1.6T参数的模型在推理时只激活49B，效率大幅提升。

3. 三档推理模式

V4提供三种推理模式，灵活适配不同场景：

模式	说明	适用场景
Non-think	不启用思考链	快速对话、简单问答
Think High	中度思考	常规推理、代码编写
Think Max	深度思考	复杂数学、长链Agent

三、性能实测：开源模型的新天花板

1. 代码能力：开源模型历史最高

评测	分数	说明
LiveCodeBench	93.5%	开源模型最高
Codeforces Rating	3206	接近职业选手水平
SWE Verified	80.6%	实际工程修复能力
SWE Pro	55.4%	工程级复杂修复

Agentic Coding评测直接登顶开源榜首，使用体验优于Claude Sonnet 4.5，交付质量逼近Opus 4.6（非思考模式）。

2. 通用与科学推理

评测	分数
MMLU	90.1
MMLU-Pro	73.5
GPQA Diamond	90.1

GPQA Diamond 90.1意味着在研究生级别的科学推理上，V4已经达到了极为出色的水平。

3. 世界知识储备

大幅领先同类开源模型，仅稍逊于Gemini-Pro-3.1——而Gemini背后是谷歌的整个搜索索引。

四、价格屠夫回归：Claude的1/28

V4发布后，限时75%折扣，截止5月5日。折扣后价格：

版本	输入（缓存命中）	输入（未命中）	输出
V4-Pro	¥0.25/百万Token	¥3/百万Token	¥6/百万Token
V4-Flash	-	-	¥0.5/百万Token

V4-Flash的输出价格每百万Token仅0.5元，百万上下文调一次2毛钱。

整体价格约为Claude Opus 4.6的1/28。那个大模型价格屠夫，又回来了。

五、华为昇腾零日适配：国产算力关键一步

发布当天，华为同步官宣：昇腾SuperNode全系列产品实现零日适配，即V4首发即支持在昇腾芯片上运行推理任务。

这是一个标志性事件：

之前：国产大模型跑在英伟达GPU上，算力自主只是口号
现在：V4+昇腾=推理侧国产算力闭环

不过需要明确：仅推理侧适配，训练环节仍依赖美国芯片。华为官方已对此做了澄清。从推理到训练的全面国产化，还需要时间。

六、开源生态：MIT协议全量开放

V4采用MIT协议开源，这意味着：

商用零门槛：企业可以直接部署，无需授权费
二次开发自由：可以修改、分发、再闭源
全量权重开放：不是阉割版，1.6T参数全部放出

配套的58页技术报告同步公开，HuggingFace和GitHub均可下载。

七、与GPT-5.5同日发布的信号

巧合的是，4月24日也是OpenAI发布GPT-5.5的日子。一边是硅谷巨头打磨的闭源旗舰，一边是杭州团队全量开源的1.6T参数怪兽。

两条时间线交汇在同一天，释放的信号很明确：

开源与闭源的边界在模糊：V4-Pro在多项评测上已经逼近甚至超越部分闭源模型
中国AI不再是跟随者：从架构创新（DSA稀疏注意力、mHC超连接）到工程实现，V4走出了自己的路
普惠化加速：百万上下文2毛钱，降低了AI应用的门槛

八、留给V5的悬念

V4并非完美，几个值得关注的点：

多模态缺失：V4是纯文本模型，视觉版本（V4-VL）将单独发布
训练侧国产化未完成：推理跑昇腾，训练还靠英伟达
Engram记忆模块未集成：1月联合北大发布的条件记忆模块，留给了V5
二次集成有适配成本：无Jinja模板，必须使用官方编码器

但话说回来，15个月从V3迭代到V4，这个速度本身就是答案。

九、写在最后

DeepSeek V4的发布，与其说是”又一个大模型来了”，不如说是国产AI从追赶到并跑的里程碑。

百万上下文标配、1.6T参数开源、华为昇腾推理适配、API价格打到1/28——每一个点单独拿出来都够做一篇头条。而当它们同时出现在一个模型上时，传递出的信息只有一个：

AI的普惠时代，真的来了。

参考资料：DeepSeek官方技术报告、AI Insight研报、腾讯云开发者社区、机器之心

原创百万上下文仅2毛！DeepSeek V4开源炸场，国产大模型卷疯了

https://lhliang.com/p/a1aadc83.html

本文是原创文章，采用CC BY-NC-SA 4.0协议，完整转载请注明来自刘洪亮Leo的博客

打赏作者

阅读建议

“DeepSeek拟融500亿、月之暗面估值破200亿美元：中国AI大模型“诸神之战”全面爆发”

2026年4月AI圈炸了：GPT-6发布、中国AI崛起、大模型井喷！

全榜第一！GPT-5.5发布48小时，OpenAI"复仇"成功

“斯坦福报告揭示：中美AI差距仅剩2.7%！中国如何做到的？”

从「抢卡」到「用卡」：xAI算力悖论揭开的AI效率革命

“AI替代神话破灭？Salesforce召回4000人背后的真相”

“AI时代焦虑：我们到底在怕什么？”

“AMD一夜暴涨20%：AI算力双寡头格局正式确立”

评论

你无需删除空行，直接评论以获取最佳展示效果

搜索

Algolia 提供搜索服务

感谢你赐予我前进的力量

wechat
alipay