GPT5.4?这次不是模型更聪明了,而是已经有能力抢人饭碗了

admin 2026-03-09 02:01:12 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章探讨AI在代码审查等前置检查任务中对人类工作的替代潜力。核心观点指出AI能力跃迁源于智能体架构与上下文管理的优化,而非单纯推理增强。通过按需拉取上下文和解决上下文污染,AI能高效完成低熵系统的异常检测。作者认为AI将压缩依赖熟练度的中间劳动,但因无法承担最终责任,人类仍主导决策环节。 综合评分: 85 文章分类: AI安全,代码审计,实战经验


cover_image

GPT5.4?这次不是模型更聪明了,而是已经有能力抢人饭碗了

原创

赛博朋克猫 赛博朋克猫

混入安全圈的程序猿艾恩

2026年3月8日 09:44 广东

以前我一直觉得,AI 最早变稳的会是写文档、写周报、写方案这种事。后来发现不太对,它先变得有用的,反而是另一类工作:前置检查

如果你的大部分工作内容是靠熟练度来完成,并且有着固定的流程,最终的结果还不需要你负责,那大概率已经在 AI 的射程里了

拿研发来说,最烦的问题,其实并不是功能写不出来,或者直接影响主流程的bug,而是那种已经能跑、测试也未必马上挂、但上线后会慢慢出问题的鬼东西。比如存在安全风险,内存泄漏,老配置没兼容,单看某段改动的commit没问题,但是发布之后可能就过一段时间就出问题了。

这类问题以前 AI 评审的也会提,但很空,无效信息和空话比较多,我最近看 GitHub 和 VS Code 的几篇文章,感觉起码在做“审查”这个的方向上,效果已经很好了。

审查并不只是代码审查,而是所有类似的工作内容。很多人的工作可能在还没有感知的情况下,就已经暴露在AI的射程范围内了。

0x01

AI 这次开始能交出像样的成品,是因为它突然更懂业务了吗,我认为并不是,而是因为它代替的工作是带着客观数据的检查题,而不是判断题

代码评审就是最典型的例子。

它跟写一份方案不是一个难度结构。 写方案是开放题。目标会变,边界会动,写着写着产品经理可能就左右脑互搏了。

代码评审不是。它有一个现成对象摆在那,diff、目录结构、引用关系、linked issue、测试结果。这些东西都已经存在,不需要模型凭空发明。

对模型来说,这类任务更像什么?  更像在一个低熵系统里找异常点

它不是要理解世界,它是要在一个已经成形的系统里,判断这次改动有没有破坏现有约束。 这类任务一旦满足几个条件,模型会突然显得很强:

  • 对象是现成的
  • 错误能落到具体位置
  • 结果可以局部验证
  • 上下文可以按需取,不用一次全塞进来

这四个条件,代码评审几乎全占了。

0x02

GitHub 有一篇更新,里面有几个数字很值得一看。

它说 Copilot code review 现在已经占 GitHub 超过五分之一的 code review。这个量已经不算试验了。更关键的是,他们把 code review 重做成了 agentic architecture,而且官方直接写了:新的系统会按需拉取更广的仓库上下文,包括相关代码、目录结构、引用关系,甚至 linked issues 和 pull requests,再来判断这次改动是不是和整体架构冲突。

这个点,才是真正的技术跃迁。

以前很多 AI code review 的问题,不是模型不会,而是它只能盯着改动的那几行在豆腐上雕花。 但真实 review 里,最有可能被忽略然后流转到生产环境的问题,往往不在改动行上。

GitHub 这次给的一个示例就很典型:

评审系统从只看改动升级成了查上下文。它已经更像一种人的 review 路径:

  • 先看这次改了什么。
  • 再去找相关文件。
  • 再去查这个改动影响谁。
  • 再判断它破坏了哪条隐含约束。
  • 最后只把真正有价值的问题提出来。

这已经不是一句 prompt 能解释的能力了,它更像检索 + 局部推理 + 约束检查的组合。

GitHub 还给了一个很有意思的结果:他们说,光是切到这套 agentic 架构,正向反馈就先涨了8.1%。 这说明提升不主要来自模型更大,而是来获取了正确的上下文

0x03

我觉得这轮变化里,很多人最容易忽略的技术点,不是推理变强了,更有意义的是上下文污染终于开始被认真解决了

VS Code 也有一篇文章,写得比较工程化,但说的其实是 agent 最痛的老问题: 长任务一旦跑起来,日志、diff、旧对话、工具输出会把上下文挤爆,模型后面不是不会干,是开始忘前面说过什么,或者被无关信息带偏。

他们这次做的几个动作都很说明问题:

  • 大输出不再直接塞进聊天,而是流到临时文件
  • agent 的 memory 跨 coding、CLI、review 复用
  • 长会话可以自动压缩,也可以手动 /compact 保留关键决策
  • 浏览器验证直接进编辑器,不用人肉来回切工具

这跟 OpenAI 在 GPT-5.4 里提到的 tool search 其实是一回事。

官方给的数据是,在 36 个 MCP servers 的环境里,不再把所有工具定义全部扔进 prompt,而是先给一个轻量目录,用到哪个再查哪个定义,token 用量能降 47%,而且还可以保证准确率。

这个点看着好像没啥,但它实际上很关键。

因为真实工作流里的 AI,不可能只连一个工具。文档、知识库、浏览器、数据库、工单、代码库,全都在一条链上。工具一多,模型最容易死的地方不是不会推理,而是上下文太大

现在 AI 开始会交成品,我认为它靠的不是仅是推理能力的提升,而是几个问题终于被同时处理了:

  • 上下文不再全靠模型硬记
  • 工具不再全靠 prompt 硬塞
  • 验证不再全靠人最后兜底

这三个东西一接上,AI 才像一个能进流程的人。

0x04

GitHub 这次还有一个点,我觉得比技术更重要,但很多人不会专门拿出来讲。

他们现在对好的review的定义,不是评论更多,而是三件事:accuracysignalspeed。  简单说就是:准、少废话、要快。这里面最反常识的,是第二个。

很多 AI 产品早期都喜欢堆产出,看起来热闹。 但真正进工作流以后,不是什么东西都是越多越好的

GitHub 公布的数据里,有一句话:在 71% 的 review 里,Copilot 会给出 actionable feedback;剩下 29%,它选择什么都不说。平均每次 review 大概 5.1 条评论,但他们强调的是不增加 churn

仅以评审这件事来说,最怕的不是漏一条普普通通的建议,最怕的是你被太多的信息淹没。  这其实有点像告警,一大堆告警只会让我们变得告警疲劳,忽略真正的问题。只给我准确,最重要的,才是我需要的。

GitHub换更强推理模型后,review 延迟多了 16%,但正向反馈涨了 6%。他们表示接受这个 trade-off。

这点其实对很多场景都是成立的,举几个很简单的例子,比如数据校对、合同校、权限审批预检这些,它们都不需要 AI 给出大量的数据。它只要把你最关注的那批异常先捞出来,就够了。

大量的EXCEL的处理场景其实和代码评审很像,都是先做前置核对和异常数据分析。对多数打工人来说,AI 最先代替的,往往不是创意,而是这些最容易由于不细心而出问题的前置检查类工作。

0x05

但是这说明 AI 已经会做判断了吗? 我觉得还没有。

OpenAI 的 GDPval 评测其实已经把边界写得比较清楚。它测试的场景基本上都有一个前提条件,一定是带有客观的数据,比如文档、图示、表格这类东西。但它还是 one-shot,无法覆盖那种需要一轮轮补上下文、反复改方向、在模糊需求里界定问题的边界这种任务。

比如code review的场景, AI可以告诉你,你的这段代码有安全风险,在某种场景下,可能会导致用户信息泄漏。 但是它无法决定这个问题到底值不值得花1周的时间去做修复和上线,它无法承担责任。

对最后的结果负责,这个部分暂时还没法外包给大模型。

0x06

那我们的工作会被AI替代吗?

也许站在开发的视角只是比较早看见这件事。  但是我认为起码这个流程是一定会是后面的出现在各个公司的流程里面的:AI 不替你做决定,但是它可以先替你做太多的前置操作。 很多人原来靠熟练和细心完成的那段中间劳动,会先被压缩。

所以,如果你的大部分工作内容是靠熟练度来完成,并且有着固定的流程,最终的结果还不需要你负责,那大概率已经在 AI 的射程里了

参考来源

  • OpenAI:https://openai.com/index/introducing-gpt-5-4/
  • OpenAI:https://openai.com/index/gdpval
  • GitHub:https://github.blog/ai-and-ml/github-copilot/60-million-copilot-code-reviews-and-counting/
  • GitHub Changelog:https://github.blog/changelog/2026-03-05-copilot-code-review-now-runs-on-an-agentic-architecture
  • VS Code Blog:https://code.visualstudio.com/blogs/2026/03/05/making-agents-practical-for-real-world-development

免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:混入安全圈的程序猿艾恩 赛博朋克猫 赛博朋克猫《GPT5.4?这次不是模型更聪明了,而是已经有能力抢人饭碗了》

食用油 网络安全文章

食用油

文章总结: 文档实为借安全笔记标题包装的幽默段子。母亲利用银行揽储竞争心理,先在工行以竞对银行送油为由施压获赠,随后又前往农行操作。内容展示了利用信息差与心理博
女人 网络安全文章

女人

文章总结: 文档讲述作者骑摩托车带发小时,因发小在时速60公里的行驶中遮挡其视线导致撞上奔驰,造成约2万元损失,作者最终自认倒霉。该文虽标记为安全渗透自学笔记,
评论:0   参与:  0