文章总结: Anthropic报告显示,截至2026年5月其代码库中80%以上代码由Claude生成,工程师季度代码产出较2021-2025年均值提升8倍。AI模型独立完成任务的能力从2024年需4分钟提升至2026年达12小时,研究判断力超越人类选择的概率达64%。报告提出AI开发自动化的三种情景,认为当前最可能走向人类设定方向、AI执行的复利增益模式,并呼吁通过国际协调机制应对技术加速带来的风险。
综合评分: 85
文章分类: AI安全
Anthropic重磅报告:80%的代码,已经不用人写了
原创
小艾 小艾
人工智能与大数据技术
2026年6月6日 20:05 福建
在小说阅读器读本章
去阅读
Anthropic Institute · 2026
当 AI 开始构建自身
递归自我改进的进展与深远影响——来自 Anthropic 内部数据的最新披露
AI
Anthropic Institute· Marina Favaro & Jack Clark
在 AI 发展史的大部分时间里,每一步进展都由人类主导。但如今,Anthropic 正在将越来越多的 AI 开发工作交给 AI 系统自身——这正在加速我们的研究进程。
沿着这条路走到尽头,给予足够的算力,趋势指向一个能够完全自主设计和开发其继任者的 AI 系统——这就是所谓的「递归自我改进」(Recursive Self-Improvement)。我们尚未到达那一步,但它可能比大多数机构所预料的更快到来。
8×
工程师季度代码产出提升 (对比2021-2025年均值)
80%+
Anthropic代码库中 由Claude撰写的代码占比
4×
研究人员使用Mythos Preview 的输出倍增估计
人均代码产出,两年翻了8倍
图为单人贡献代码量对照表(按季度统计);统计口径:每根柱为单季度活跃贡献者平均合并代码行数,数值为相对2025年之前全周期平均值的倍数;2026年Q2非完整季度统计,虚线为产品官宣时间。
1
AI 能力扩张的外部证据
AI 模型的改进速度正在加快。模型能够独立可靠完成任务的时长,大约每四个月翻倍一次,比此前每七个月翻倍的速度更快。
2024年3月
Claude Opus 3 能完成约需人类4分钟的软件任务
2025年3月
Claude Sonnet 3.7 能处理约需人类1.5小时的任务
2026年5月
Claude Opus 4.6 成功完成约需人类12小时的任务
预计2027年
AI 或将具备完成需要人类数周才能完成任务的能力
在研究基准测试上,同样的模式清晰可见。SWE-bench(真实软件工程测试)和 CORE-Bench(科研结果复现测试)等基准的饱和速度都在两年内完成,AI 系统在论文结果复现方面从2024年约20%的成功率,到不足15个月后接近满分。
Claude Mythos Preview 被 METR 评估机构测试后发现,其能持续工作至少16小时,且已处于当前测试框架所能衡量的上限边界。
2
来自 Anthropic 内部的数据
构建一个前沿模型需要两大类工作:工程(写代码、搭基础设施、监督模型训练)和研究(决定做什么实验、解读结果、探索新思路)。在这两个维度,数据所呈现的图景高度一致。
代码产出飞跃:截至2026年5月,Anthropic 代码库中超过80%的代码由 Claude 撰写。而在 Claude Code 于2025年2月推出之前,这一数字只有个位数。在2026年第二季度,工程师每天合并的代码量是2024年的8倍——因为大量代码由 Claude 编写,工程师则负责指导和审查。
「我大约一年前开始大量使用 Claude 来写代码。这是一段疯狂的冒险——我已经大约五个月没有自己写过任何代码了。」
——Anthropic 员工
代码质量稳步提升:Claude 自动代码审查工具的回溯分析显示,若在历史上对每次代码变更都使用自动审查,可以在到达生产环境前捕获大约三分之一的错误。值得注意的是,那些代码的原始作者是世界上最优秀的工程师之一。
实验执行能力突破:Anthropic 每次发布新模型,都会进行同一项内部测试——让 Claude 对训练小型 AI 模型的代码进行性能优化。2025年5月,Claude Opus 4 平均实现约3倍加速;到2026年4月,Claude Mythos Preview 达到约52倍加速。相比之下,一名熟练人类研究员需要4到8小时才能实现4倍加速。
「如今的格局大致是:人类提出想法,模型能以比以前快一个数量级的速度去实现、测试和评估这些想法。」
——Anthropic 研究团队内部观察
研究判断力初现曙光:在一项测试中,各版本 Claude 模型被要求在研究会话的关键岔路口判断「下一步最佳行动」,并与人类研究员的实际选择对比。2025年11月,最佳模型超越人类选择的概率为51%;到2026年4月,已升至64%。
2026年4月,Anthropic 还发布了首个展示 Claude 端对端完成开放式研究项目的案例:AI Agent 被给予一个 AI 安全领域的开放性问题,自主提出假设、测试、共享发现并迭代,最终恢复了97%的性能差距,而两名人类研究员用了约一周时间只恢复了23%。
3
工作的未来与三种情景
证据表明,AI 开发流程中人类角色正在逐步收窄。当 Claude 与人类在代码质量上达到对等,人类将停止直接写代码,转而专注于审查。当 Claude 能独立运行实验,核心问题就变成了「哪些实验值得做」。
目前,人类的相对优势集中于研究品味与判断力:判断哪些问题重要、哪些结果可信、何时一条路走不通。
研究员犯错,Claude能给出更优方案吗?
情景一
趋势放缓,但今日 AI 能力广泛扩散
指数曲线或许是S形曲线,当前可能正接近拐点。研究品味等能力也许无法通过扩大算力获得,需要全新架构突破。即便如此,当前的能力也将深刻改变经济与社会。Anthropic 认为这是三种情景中最不可能发生的一个。
情景二
AI 实验室持续获得复利效率增益
AI 开发大幅自动化,但人类持续负责设定研究方向与判断结果。百人公司将能完成万人规模的工作。这将革新知识工作,但也可能被用于威权监控或大规模定制化操纵。Anthropic 认为当前证据表明,我们正在走向这一情景。
情景三
AI 系统实现完全的递归自我改进
AI 开发进程完全由算力决定,人类作用急剧缩减。这一世界的形态难以预测——它既可能迅速带来医疗、科学领域的巨大突破,也可能因对齐问题未解决而导致人类对 AI 失去控制。
4
我们应当如何应对
Anthropic 认为,如果能有效减缓这项技术的开发速度,以争取更多时间应对其深远影响,这很可能是一件好事。但如果减速只是让最不谨慎的行为者追上来,可能反而让所有人更不安全。
要实现有意义的减速或暂停,需要多家处于或接近技术前沿的大型实验室在多个国家达成协议,并能相互核查是否真正停止。Anthropic 指出,训练运行远比导弹发射井更难被发现,退出协议的激励极大。
Anthropic 表示,若其他前沿开发者以可核查的方式同步行动,他们预期会减速或暂停。Anthropic Institute 将开展研究,帮助构建让可信减速或暂停成为可能的系统——包括技术核查机制与国际协调框架。
在未来数月,Anthropic 将组织政策制定者、研究人员、公民社会与其他 AI 公司共同探讨这些问题,并公开发布讨论成果。
很多人看到这里,第一反应可能都是:那以后人还负责什么?
对我们普通人来说,与其焦虑 AI 会不会取代自己,不如想清楚自己能提供什么是 AI 暂时提供不了的。Anthropic给出的答案是,方向选择、目标设定和关键判断。
「调查的窗口就在眼前,AI 公司以外的人也应当参与这场审慎的商议。
——Anthropic Institute
本文翻译自 Anthropic Institute 报告《When AI builds itself》 原文:anthropic.com/institute/recursive-self-improvement 作者:Marina Favaro & Jack Clark · 2026年6月
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:人工智能与大数据技术 小艾 小艾《Anthropic重磅报告:80%的代码,已经不用人写了》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。


![[译苑雅集vol.13]Cloudflare:AI爬虫吃掉流量之后,内容该怎么收费?](/images/random/titlepic/2.jpg)








评论