2026-04-13 05:18:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 智元发布GO-2具身大模型，提出动作思维链技术，采用异步双系统架构实现规划与执行分离。其在LIBERO基准测试达98.5%成功率，真实环境零样本达82.9%。该突破证明慢快分离架构工程可行且提升可解释性，为具身智能提供新路径，建议从业者关注后续开源计划与商业化进展。 综合评分： 68 文章分类： 产品介绍,软文广告

cover_image

【AI大模型】智元GO-2具身大模型：动作思维链如何颠覆机器人控制范式

原创

我真tm厉害我真tm厉害

黑客茶话会

2026年4月10日 14:53 山东

你有没有见过那种”笨笨的”机器人？指令说”把桌上的水杯拿给我”，它却一次次把杯子推得更远，或者手臂抬到半空突然僵住——不是硬件坏了，是它根本不理解”拿”这个动作背后的人类意图。

这种情况正在被改变。4月9日，智元机器人发布 Genie Operator-2（GO-2）具身大模型，一项名为“动作思维链”（Chain of Action Thought）的原创技术，让机器人第一次具备了”先思考再行动”的规划能力。

一、传统机器人为什么”听不懂人话”

要理解GO-2的突破，先得知道传统机器人控制有多别扭。早期的机器人控制逻辑是”输入指令→直接输出控制信号”，就像把中文扔进翻译机，出来一串谁都看不懂的乱码。哪怕是波士顿动力的Atlas，能后空翻、能走独木桥，但它的”智能”本质上是大量人工规则和物理仿真的堆叠，泛化能力几乎为零。

后来有了模仿学习（Imitation Learning）和强化学习（RL），机器人能跟着人类演示动作，也能自己摸索策略。但问题依然存在：真实世界太复杂了。桌面的高度可能有误差，物体可能在移动过程中滑动，机器人的传感器永远有噪声——用单一策略覆盖所有情况，几乎不可能。

二、动作思维链：让机器人”先想再做”

GO-2的核心创新是异步双系统架构：慢系统负责”想”，快系统负责”做”。

慢系统（低频）像人类的”大脑皮层”，在执行任务前先在高层生成完整的动作序列规划。比如指令是”把水杯从桌子左边移到右边”，慢系统会先规划：识别水杯位置→判断抓取角度→规划手臂移动路径→预判可能的干扰→确定放下的位置。这整个思考过程在后台完成，不影响实时控制。

快系统（高频）则像小脑，实时修正偏差。如果桌面高度有误差、手臂行动中有抖动，快系统会立即微调，保证动作精确执行。两个系统各司其职、互不干扰，这也就是为什么GO-2能同时做到”规划准确”和”执行稳定”。

图：异步双系统架构示意，慢系统做规划，快系统实时修正

三、数据说话：98.5%成功率是什么概念

看技术报告最怕的就是”业内领先””显著提升”这种模糊词汇。GO-2直接给了硬数据：

1. LIBERO Benchmark 平均成功率 98.5%，覆盖四类核心任务（拾取、放置、抽屉操作、关节操作），这个数字是目前全球最高的。之前的SOTA方法大概在85%-90%区间，GO-2直接拉高了将近10个百分点。

2. Genie Sim3.0 真实环境测试成功率 82.9%。这是用仿真环境训练后直接部署到真实机器人的”零样本”测试，不是精心调参后的”表演赛”。82.9%意味着你把机器人从仿真器里拎出来，放到真实桌面前，它大概率能正常工作。

3. 动作思维链相关论文已被 CVPR 2026 接收。CVPR是计算机视觉领域的顶会，能发出去说明学术界也认这个工作的原创性。

四、为什么这个时间点值得关注

2026年被称为”具身智能元年”，但大多数玩家还在卷”手臂有多少个关节””灵巧手有几根手指”。这些当然重要，但智元选择从”大脑”切入，是一个更有战略眼光的选择。

硬件的迭代周期长、供应链复杂，而具身大模型本质上是一个软件问题——一旦有突破，适配各种硬件平台的速度远快于从头造一个机械臂。智元这套架构如果验证有效，未来接入不同形态的机器人（轮式、臂式、甚至四足）都会相对容易。

还有一个值得注意的信号：动作思维链不只是”让机器人更准”，而是让机器人第一次有了可解释的决策过程。慢系统的规划是可以被读取和审查的——这在工业场景、医疗辅助场景里，是合规和安全的前提。

五、从业者怎么看

知乎上有从业者评论说，GO-2的意义不在于”又刷了一个SOTA”，而在于”证明了慢快分离的架构在工程上是可行的”。之前学术界也有类似的想法，但要么是算不动，要么是延迟太高无法实时。智元能把这里面的工程难题解决，本身就是壁垒。

当然，现在说”具身智能颠覆一切”还太早。98.5%是在标准Benchmark上测出来的，真实家庭环境、户外环境的表现还需要更多验证。但从技术路径上看，GO-2至少证明了一条走得通的路。

六、普通人什么时候能用上

如果你是科技爱好者，最快体验到这类技术的方式可能是：智能家居厂商引入具身大模型能力，让家用机器人真正”听得懂人话”——不是每句话都要精确的唤醒词，而是能理解模糊指令和真实意图。

如果你是开发者或AI从业者，GO-2的开源计划和API开放时间值得关注。智元目前已经和多个高校、实验室有合作，CVPR论文放出来之后，社区复现和改进的速度会加快。

如果你是投资者，具身智能目前还在早期，真正能落地的公司不多——硬件、算法、数据三块缺一不可。智元至少在算法这块拿出了差异化的东西，接下来看它能不能把工程化和商业化跑通。

茶话君说：动作思维链的本质，是让机器人第一次有了”思考过程”而不是”条件反射”。这件事本身的意义，可能比98.5%的数字更值得讨论。

—— 今日份的AI观察就到这里，如果你觉得有收获，欢迎转发给身边的朋友。有什么想聊的话题，评论区见。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：黑客茶话会我真tm厉害我真tm厉害《【AI大模型】智元GO-2具身大模型：动作思维链如何颠覆机器人控制范式》