文章总结: 该文档通过控制鼠标在Windows画图软件绘制小汽车的测试任务,对比评估了DeepSeekv4与GLM5.1、Sonnet、GPT5.2、QWen3.6等大模型的通识能力。作者指出DeepSeekv4整体表现中等但低于预期,Pro版甚至弱于Flash版;GLM5.1与Sonnet并列最佳,GPT5.2表现不佳,QWen3.6出现幻觉。分析认为模型能力取决于训练数据质量、算力成本与投入产出比权衡,建议通过综合性任务测试模型通识能力。 综合评分: 65 文章分类: AI安全,技术标准,其他
DeepSeek v4,让我失望了
原创
杨冀龙 杨冀龙
神龙叫
2026年4月24日 20:38 四川
在小说阅读器读本章
去阅读
DeepSeek v4好不好,到底有多好,和同行对比如何?一眼就能看出来。 连接不同大模型,给aipy任务提示词:
打开windows画图软件,控制鼠标,画一辆小汽车。
接下来看图回答问题:谁的最丑?谁的最抽象?国外谁最好?国内谁最好?DeepSeek进步如何?谁进步最大?
答对有奖!
DeepSeek v4 Flash和 v3.2进步并不大,更抽象的是Pro比Flash差,收获了长记忆,失去了部分通识。
GLM5.1和Sonnet并列第一
GPT5.2也不行。
QWen3.6本来不错,但出现了幻觉。
再看各家,为什么各家差异这么大?
因为大模型能力取决于:
- 训练数据大小,综合性,对世界通识的认知能力这需要数据成本、数据清晰成本
- 训练显卡成本、耗电成本 能力和成本成正比,而任何企业都要算投入产出比,找均衡 因此很多大模型,是对某些方面擅长,损失通识,获得打比赛、场景专长处
如何测试大模型通识能力,就是刚才这个测试,测试了这些能力: 知道什么是小汽车 知道如何描述小汽车 知道如何打开windows画图软件 知道如何控制鼠标 知道如何将小汽车描述,转变为鼠标操作
测试了大模型全面的能力。 因此高下一目了然。
DeepSeek v4 整体能力看起来是中间水平,但和期望值相比就让人失望了, 不知道是算力原因,还是数据原因,知情的可以吱一声。
更多内容:
龙虾?宗教、钱财、骗子
大模型能力评测,中国落后一年
客官,请留步,求关注,有问必答;
关注输入“福利”,有惊喜喔。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:神龙叫 杨冀龙 杨冀龙《DeepSeek v4,让我失望了》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论