DeepSeekv4,让我失望了

admin 2026-04-26 05:34:50 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 该文档通过控制鼠标在Windows画图软件绘制小汽车的测试任务,对比评估了DeepSeekv4与GLM5.1、Sonnet、GPT5.2、QWen3.6等大模型的通识能力。作者指出DeepSeekv4整体表现中等但低于预期,Pro版甚至弱于Flash版;GLM5.1与Sonnet并列最佳,GPT5.2表现不佳,QWen3.6出现幻觉。分析认为模型能力取决于训练数据质量、算力成本与投入产出比权衡,建议通过综合性任务测试模型通识能力。 综合评分: 65 文章分类: AI安全,技术标准,其他


cover_image

DeepSeek v4,让我失望了

原创

杨冀龙 杨冀龙

神龙叫

2026年4月24日 20:38 四川

在小说阅读器读本章

去阅读

DeepSeek v4好不好,到底有多好,和同行对比如何?一眼就能看出来。 连接不同大模型,给aipy任务提示词:

打开windows画图软件,控制鼠标,画一辆小汽车。

接下来看图回答问题:谁的最丑?谁的最抽象?国外谁最好?国内谁最好?DeepSeek进步如何?谁进步最大?

答对有奖!

DeepSeek v4 Flash和 v3.2进步并不大,更抽象的是Pro比Flash差,收获了长记忆,失去了部分通识。

GLM5.1和Sonnet并列第一

GPT5.2也不行。

QWen3.6本来不错,但出现了幻觉。

再看各家,为什么各家差异这么大?

因为大模型能力取决于:

  1. 训练数据大小,综合性,对世界通识的认知能力这需要数据成本、数据清晰成本
  2. 训练显卡成本、耗电成本 能力和成本成正比,而任何企业都要算投入产出比,找均衡 因此很多大模型,是对某些方面擅长,损失通识,获得打比赛、场景专长处

如何测试大模型通识能力,就是刚才这个测试,测试了这些能力: 知道什么是小汽车 知道如何描述小汽车 知道如何打开windows画图软件 知道如何控制鼠标 知道如何将小汽车描述,转变为鼠标操作

测试了大模型全面的能力。 因此高下一目了然。

DeepSeek v4 整体能力看起来是中间水平,但和期望值相比就让人失望了, 不知道是算力原因,还是数据原因,知情的可以吱一声。

更多内容:

龙虾?宗教、钱财、骗子

大模型能力评测,中国落后一年

客官,请留步,求关注,有问必答;

关注输入“福利”,有惊喜喔。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:神龙叫 杨冀龙 杨冀龙《DeepSeek v4,让我失望了》

评论:0   参与:  0