我为什么不相信Anthropic的Mythos神话

admin 2026-06-16 04:20:53 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章质疑AnthropicMythos被过度吹捧为准奇点,认为尽管其在网络安全等领域可能有提升,但公开证据不足。作者批评Anthropic利用危险性与稀缺性构建营销神话,指出漏洞发现是系统工程而非单一模型功劳,并怀疑其优势源于算力与工具链堆料,呼吁需通过可复现的同条件对照实验验证真实能力。 综合评分: 84 文章分类: AI安全,网络安全,漏洞分析


cover_image

我为什么不相信 Anthropic 的 Mythos 神话

原创

kingname kingname

未闻Code

2026年6月14日 09:15 新加坡

在小说阅读器读本章

去阅读

摄影:产品经理

榴莲千层蛋糕

最近 Anthropic 的 Mythos / Fable 5 很火。

有人说,Mythos 已经接近“准奇点”。也有人说,它代表了 AI 的下一次跃迁。网络安全、软件工程、科研自动化,都要被它改写。

我不太信。

我不是说 Mythos 一定是假的。也不是说 Anthropic 没有做出更强的模型。从公开信息看,Mythos 大概率确实很强。尤其是在漏洞发现、漏洞链构造、PoC 生成、长周期代码任务上,它可能比普通模型更进一步。

但“很强”和“准奇点”不是一回事。

中间差得很远。

我真正反感的是另一件事:Anthropic 把一个普通人用不到、测不了、也没法复现实验的模型,包装成了一个神秘、危险、只有少数人能接触的东西。

然后很多人看了几篇官方文章,几个合作方案例,就开始脑补:这个东西是不是已经接近超智能了?

这就不是判断了。

这是信仰。

没真正用过,就别谈“准奇点”

一个人如果没有真正用过 Mythos,就很难评价 Mythos。

更准确一点说,如果他没有拿自己的真实任务去跑,没有和 Opus、GPT-5.5、Gemini、Kimi 做同条件对比,只是看了公开材料,就说它是“准奇点”,那这个判断太虚了。

什么叫“准奇点”?

至少应该是这样的:模型能在开放问题里稳定推进。它不只是会写代码、修 bug。它还要能从一个模糊想法出发,自己设计方案,自己做实验,自己 debug,自己修正方向,最后完成一个复杂闭环。

而且,这种能力不能只出现在一个特定场景里。

不能只是网络安全强。不能只是某些代码任务强。它应该在科研、产品、工程、商业分析、复杂决策里都有稳定表现。

现在公开材料能说明什么?

最多说明 Mythos 在某些网络安全和代码任务上很强。它可能能发现漏洞。可能能生成 exploit,可能能加速安全研究。

这当然厉害。

但这离“准奇点”还差得很远。

把“漏洞发现表现好”直接升级成“准奇点”,中间缺了太多证据。

Anthropic 最强的,可能不是模型

我对 Anthropic 最大的不信任,不是因为它技术差。

恰恰相反,它技术很强。

但它太会讲故事了。

它不会直接说:“我们已经做出了超智能。”

它会换一种说法。它会说:这个模型太强。太危险。只能给经过审核的合作方使用。普通用户不能随便接触。政府也开始介入。

这套叙事非常厉害。

越不让你用,你越觉得它强。

越强调安全风险,你越觉得它接近失控。

越只放出少数案例,你越会想象:没放出来的部分肯定更惊人。

最后,一个闭环就形成了。

因为它太强,所以不能公开。

因为不能公开,所以你没法验证。

因为你没法验证,所以只能相信官方和少数合作方。

因为只有少数人能用,所以它显得更神秘,也更强大。

这不就是车库里的喷火龙吗?

车库主人说,里面有一条龙。你看不到,也摸不到,更不能测。

他说,不是不想给你看。是这条龙太危险。

问题是,越不让看,越有人相信里面真有龙。

漏洞发现战绩,不等于模型本身的能力

Anthropic 公开展示过 Mythos 的漏洞发现成果。

比如,它扫描了很多开源项目,发现了候选漏洞。之后,部分漏洞经过外部安全公司 review,部分被披露,部分被修复,部分拿到了 CVE 或 GHSA。

这些成果不能无视。

Cloudflare、Mozilla 这类组织也公开提到过 Mythos 或 Opus 在安全研究中的作用。它们不太可能拿自己的声誉陪 Anthropic 演一场完全虚构的戏。

所以我不认为 Mythos 是纯空气。

但漏洞发现不是模型一个人完成的魔法。

它是一套系统工程。

一个真实有效的漏洞发现流程,可能包括很多东西。比如代码仓库筛选,静态分析,fuzzing,sanitizer,agent scaffold,prompt 设计,大规模并行计算,自动验证,人类安全研究员 triage,漏洞去重,披露流程,厂商修复,CVE/GHSA 归档。

最后发现一个漏洞,到底是谁的功劳?

是模型本身?

是更大的推理预算?

是工具链?

是传统安全工具?

是人类研究员?

这些要拆开看。

如果把整个 pipeline 的成果都记在 Mythos 头上,那就是叙事偷换。

我真正想看的,不是“我们发现了多少漏洞”。

我想看同条件对照。

同一个代码库。

同一套工具链。

同样的运行时间。

同样的推理预算。

同样的人类介入规则。

然后比较 Opus 4.6、Opus 4.8、Fable 5、Mythos 5、GPT-5.5 的结果。

只有这样,才能知道 Mythos 到底强在哪里。

否则,它可能是 base model 真有质变。也可能只是旧模型拿到了更多 test-time compute。也可能是 agent scaffold 做得更好。也可能是传统工具和人类 triage 在背后扛了大头。

这几种情况完全不是一回事。

Fable 5 会不会只是“更多算力的 Opus”?

我一直有一个怀疑。

所谓 Fable 5,会不会本质上就是 Opus 系列模型,加上更高推理预算、更少限制、更好的工具链,以及更激进的 agent workflow?

这个怀疑不是空穴来风。

很多人都有过类似体验:一个模型刚发布时非常惊艳。过一段时间后,突然变笨了。

这不一定是模型权重变了。

线上模型不是一个单纯的权重文件。它是一整套服务系统。

推理预算、系统负载、路由策略、系统提示词、安全策略、上下文压缩、工具调用、fallback 模型,都会影响用户感受到的“智商”。

一个模型看起来更聪明,不一定说明底层智能发生了代际跃迁。

它可能只是获得了更长的思考时间。更多的推理 token。更少的拒答。更强的工具链。更稳定的执行环境。

如果 Fable 5 / Mythos 5 的优势主要来自这些系统层能力,那它当然会比普通 Opus 更强。

但这不等于它是准奇点。

这就像一辆车跑得更快。

原因可能是发动机换代了。

也可能是轮胎更好,赛道更平,油门限制被取消,补给团队更专业。

你不能只看终点成绩,就说发动机一定发生了革命。

下线事件,让 Mythos 更像神话

Fable 5 / Mythos 5 因为美国政府出口管制指令而暂停访问。这是整件事里最戏剧化的一幕。

官方说法是,美国政府要求 Anthropic 暂停外国人访问这些最强模型。理由是国家安全,以及潜在 jailbreak 风险。

Anthropic 表示不同意,但还是执行了。

这件事当然有现实基础。

判断一个用户是不是 foreign national,不是看 IP、手机号、信用卡地址就能解决的。这里面有 KYC,有企业主体,有实际使用人,有员工身份,有转授权,有审计,也有法律责任。

所以,这不是在 API 前面写一个 if-else 就能搞定的事。

但从传播效果看,这件事几乎完美服务了 Mythos 的神话叙事。

很多人会自然得出一个结论:

这个模型太强了,所以政府都怕。

这个模型太危险了,所以不能给普通人用。

这个模型被封了,所以它一定比公开模型强很多。

这就是最强的饥饿营销。

我不能证明这是 Anthropic 自导自演。也不能证明它联合政客制造了骗局。

这种说法证据不足,操作复杂度也很高。

但无论动机是什么,结果很清楚:Mythos 变得更神秘了。

它更像一个“你用不到,但你必须敬畏”的东西。

对一家特别擅长安全叙事和风险叙事的 AI 公司来说,这个结果太有利了。

真正的问题,是边界被揉在了一起

我对 Mythos 的怀疑,不是简单说它是假的。

更准确地说,我怀疑 Anthropic 把很多边界揉在了一起。

它把模型能力和系统工程能力揉在一起。

漏洞发现可能是模型、工具链、fuzzing、算力、人类 triage 的综合成果。但对外讲的时候,大家记住的是 Mythos。

它把候选漏洞和确认漏洞揉在一起。

模型提出几万个 candidate finding,不等于发现了几万个真实漏洞。候选、确认、披露、修复、拿到 CVE,是完全不同的层级。

它把特定领域能力和通用智能跃迁揉在一起。

即使 Mythos 在 cyber 任务中很强,也不能推出它在科研、商业、产品、复杂工程上都接近准奇点。

它把安全限制差异和底层智能差异揉在一起。

Fable 5 被说成 Mythos 的安全版。但外界并不知道它们到底差在哪里。

是底层模型一样,只是安全策略不同?

还是工具权限不同?

还是推理预算不同?

还是 agent scaffold 不同?

它还把“不能公开”和“强到不能公开”揉在一起。

一个模型不能公开,原因可能很多。合规、商业、成本、风险管理、产品未成熟、政府压力,都有可能。

不能因为不能公开,就默认它强到离谱。

这些模糊地带,就是 Mythos 神话生长的地方。

如果真强,就拿出硬证据

如果 Anthropic 真想证明 Mythos 不是营销,那就应该拿出更硬的证据。

不是精选案例。

不是合作方背书。

也不是“我们发现了很多漏洞”这种总量数字。

我想看到的是可复现 benchmark。

我想看到同 harness、同预算、同任务集下的模型对照。

我想看到原始运行轨迹。

我想看到人工介入比例。

我想看到误报率。

我想看到单个真实漏洞的平均成本。

模型到底如何阅读代码?

如何提出假设?

如何验证?

如何排除错误方向?

如何生成 PoC?

中间有没有人类给关键提示?

跑了多少次?

失败了多少次?

花了多少推理 token?

用了多少 GPU 小时?

最后,一个真实高危漏洞的成本是多少?

这些问题不回答,外界就无法判断 Mythos 到底是什么。

它到底是一次智能跃迁?

还是一次工程系统的堆料胜利?

如果它真的强,就应该经得起同条件对照。

我的判断

我现在对 Mythos 的判断很简单。

它大概率不是纯骗局。它应该确实在某些 cyber 和代码任务中有真实提升。

但公开证据远远支撑不了“准奇点”这个说法。

这个词更多来自营销、稀缺性和外界脑补。

Fable 5 / Mythos 5 的优势,未必来自 base model 的质变。

它更可能是模型、推理预算、agent scaffold、工具链、长上下文、记忆、安全策略、人类流程一起堆出来的系统能力。

Anthropic 最成功的地方,也许不是 Mythos 本身。

而是它把 Mythos 包装成了一个外界无法验证、但足够令人兴奋和恐惧的神秘强模型。

Fable 5 下线事件,不管真实原因是什么,都进一步强化了这个神话。

普通人越用不到,就越容易相信它强得离谱。

所以,真正理性的态度不是无脑否定,也不是无脑崇拜。

而是要求可复现证据,同条件对照,原始日志,人工介入比例,以及成本数据。

我不是说车库里一定没有喷火龙。

我只是说,在我看到火焰、鳞片、脚印和独立检测报告之前,我不会因为车库主人说“它太危险,所以不能给你看”,就相信里面真的有一条龙。

尤其是,当这个车库主人本来就是全世界最擅长讲“龙很危险,所以你必须相信我”的公司之一。

END

未闻 Code·知识星球开放啦!

一对一答疑爬虫相关问题

职业生涯咨询

面试经验分享

每周直播分享

……

未闻 Code·知识星球期待与你相见~


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:未闻Code kingname kingname《我为什么不相信 Anthropic 的 Mythos 神话》

评论:0   参与:  0