2026-04-26 05:04:48 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeekAI于2026年4月24日发布V4系列大模型，包括1.6T参数的Pro版和284B参数的Flash版，均采用MoE架构并支持百万Token上下文。模型在长文本处理效率上大幅提升，Pro版推理算力仅为V3.2的27%，目前已在HuggingFace等平台开源，但Pro版服务吞吐有限需等待下半年昇腾950节点批量上市后降价。 综合评分： 78 文章分类： 技术标准,AI安全,产品介绍,安全工具,其他

cover_image

突发！DeepSeek-V4正式发布，华为昇腾芯

原创

hacking hacking

Hacking黑白红

2026年4月24日 13:01 上海 标题已修改

在小说阅读器读本章

去阅读

就在昨天腾讯发布了混元Hy3

姚顺雨在DeepSeek V4前交卷了！混元Hy3 发布

今天，4月24日，DeepSeek API 文档突然上线，让我们看到了新版本的「庐山真面目」。

全球 AI 圈等待了几个月的 DeepSeek V4，它终于来了！

DeepSeek AI发布全新V4系列大模型预览版，同步开源并上线服务，凭借百万Token超长上下文与高效架构，刷新开源模型能力上限。

双模型齐发，百万上下文全面支持

V4系列采用混合专家（MoE）架构，推出两款核心版本：

DeepSeek-V4-Pro：总参数1.6T，激活参数49B，预训练数据33T，主打极致性能。

DeepSeek-V4-Flash：总参数284B，激活参数13B，预训练数据32T，兼顾速度与效果。

DeepSeek 官方强调：限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。

两款模型均支持100万Token上下文，长文本理解、文档处理、多轮对话记忆能力大幅提升。

技术全面升级，效率大幅突破

V4系列在架构与优化上实现关键创新：混合压缩稀疏注意力提升长上下文效率；流形约束超连接增强网络传递；Muon优化器让训练更稳、收敛更快。

对比上一代V3.2，V4-Pro在百万上下文场景下，推理算力仅需27%，KV缓存仅占10%，高效支撑长上下文实用化部署。

性能领跑开源，体验即刻开启

V4-ProMax模式在知识、推理、智能体能力上达到开源模型顶尖水平，综合表现超越多款主流闭源模型，成为开源领域新标杆。

目前模型已在Hugging Face、魔搭社区开源，技术报告同步公开。用户可登录官网或官方App直接体验。我们发现，昇腾 CANN 将在今天下午 4 点直播 DeepSeek V4 在昇腾平台的首发。

关于硬件

DeepSeek – V4 论文并未披露具体训练硬件、集群规模、GPU hours 或训练成本，只披露了 32T / 33T tokens 的预训练规模、batch size、序列长度扩展路径，以及 Muon、ZeRO、FP4/FP8、通信计算重叠等训练与系统优化方案。

DeepSeek-V4凭借超长上下文、高效架构与领先性能，为长文本处理、智能体应用、专业创作带来全新可能。

下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例：

作者：hacking。前北漂程序员，现在做安全。

文章数据来自网络，大模型优化，侵权删。

往期相关回顾

度假变噩梦！徐泽伟因美国网络入侵指控在意大利被扣，妻子：老人孩子还能等多久？

被指控网络入侵：中国徐泽伟在意大利被扣押的210天、或被引渡美国

徐泽伟引渡美国！意大利上诉被驳回，被美国指控黑客入侵

朝鲜黑客封神！潜伏6个月盗走2.85亿，DeFi史上最精密猎杀案曝光

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Hacking黑白红 hacking hacking《突发！DeepSeek-V4正式发布，华为昇腾芯》