文章总结: DeepSeekAI于2026年4月24日发布V4系列大模型,包括1.6T参数的Pro版和284B参数的Flash版,均采用MoE架构并支持百万Token上下文。模型在长文本处理效率上大幅提升,Pro版推理算力仅为V3.2的27%,目前已在HuggingFace等平台开源,但Pro版服务吞吐有限需等待下半年昇腾950节点批量上市后降价。 综合评分: 78 文章分类: 技术标准,AI安全,产品介绍,安全工具,其他
突发!DeepSeek-V4正式发布,华为昇腾芯
原创
hacking hacking
Hacking黑白红
2026年4月24日 13:01 上海 标题已修改
在小说阅读器读本章
去阅读
就在昨天腾讯发布了混元Hy3
姚顺雨在DeepSeek V4前交卷了!混元Hy3 发布
今天,4月24日,DeepSeek API 文档突然上线,让我们看到了新版本的「庐山真面目」。
全球 AI 圈等待了几个月的 DeepSeek V4,它终于来了!
DeepSeek AI发布全新V4系列大模型预览版,同步开源并上线服务,凭借百万Token超长上下文与高效架构,刷新开源模型能力上限。
双模型齐发,百万上下文全面支持
V4系列采用混合专家(MoE)架构,推出两款核心版本:
DeepSeek-V4-Pro:总参数1.6T,激活参数49B,预训练数据33T,主打极致性能。
DeepSeek-V4-Flash:总参数284B,激活参数13B,预训练数据32T,兼顾速度与效果。
DeepSeek 官方强调:限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。
两款模型均支持100万Token上下文,长文本理解、文档处理、多轮对话记忆能力大幅提升。
技术全面升级,效率大幅突破
V4系列在架构与优化上实现关键创新:混合压缩稀疏注意力提升长上下文效率;流形约束超连接增强网络传递;Muon优化器让训练更稳、收敛更快。
对比上一代V3.2,V4-Pro在百万上下文场景下,推理算力仅需27%,KV缓存仅占10%,高效支撑长上下文实用化部署。
性能领跑开源,体验即刻开启
V4-ProMax模式在知识、推理、智能体能力上达到开源模型顶尖水平,综合表现超越多款主流闭源模型,成为开源领域新标杆。
目前模型已在Hugging Face、魔搭社区开源,技术报告同步公开。用户可登录官网或官方App直接体验。我们发现,昇腾 CANN 将在今天下午 4 点直播 DeepSeek V4 在昇腾平台的首发。
关于硬件
DeepSeek – V4 论文并未披露具体训练硬件、集群规模、GPU hours 或训练成本,只披露了 32T / 33T tokens 的预训练规模、batch size、序列长度扩展路径,以及 Muon、ZeRO、FP4/FP8、通信计算重叠等训练与系统优化方案。
DeepSeek-V4凭借超长上下文、高效架构与领先性能,为长文本处理、智能体应用、专业创作带来全新可能。
下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例:
作者:hacking。前北漂程序员,现在做安全。
文章数据来自网络,大模型优化,侵权删。
往期相关回顾
度假变噩梦!徐泽伟因美国网络入侵指控在意大利被扣,妻子:老人孩子还能等多久?
被指控网络入侵:中国徐泽伟在意大利被扣押的210天、或被引渡美国
徐泽伟引渡美国!意大利上诉被驳回,被美国指控黑客入侵
朝鲜黑客封神!潜伏6个月盗走2.85亿,DeFi史上最精密猎杀案曝光
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:Hacking黑白红 hacking hacking《突发!DeepSeek-V4正式发布,华为昇腾芯》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论