文章总结: 智元发布GO-2具身大模型,提出动作思维链技术,采用异步双系统架构实现规划与执行分离。其在LIBERO基准测试达98.5%成功率,真实环境零样本达82.9%。该突破证明慢快分离架构工程可行且提升可解释性,为具身智能提供新路径,建议从业者关注后续开源计划与商业化进展。 综合评分: 68 文章分类: 产品介绍,软文广告
【AI大模型】智元GO-2具身大模型:动作思维链如何颠覆机器人控制范式
原创
我真tm厉害 我真tm厉害
黑客茶话会
2026年4月10日 14:53 山东
【AI大模型】智元GO-2具身大模型:动作思维链如何颠覆机器人控制范式
你有没有见过那种”笨笨的”机器人?指令说”把桌上的水杯拿给我”,它却一次次把杯子推得更远,或者手臂抬到半空突然僵住——不是硬件坏了,是它根本不理解”拿”这个动作背后的人类意图。
这种情况正在被改变。4月9日,智元机器人发布 Genie Operator-2(GO-2)具身大模型,一项名为“动作思维链”(Chain of Action Thought)的原创技术,让机器人第一次具备了”先思考再行动”的规划能力。
一、传统机器人为什么”听不懂人话”
要理解GO-2的突破,先得知道传统机器人控制有多别扭。早期的机器人控制逻辑是”输入指令→直接输出控制信号”,就像把中文扔进翻译机,出来一串谁都看不懂的乱码。哪怕是波士顿动力的Atlas,能后空翻、能走独木桥,但它的”智能”本质上是大量人工规则和物理仿真的堆叠,泛化能力几乎为零。
后来有了模仿学习(Imitation Learning)和强化学习(RL),机器人能跟着人类演示动作,也能自己摸索策略。但问题依然存在:真实世界太复杂了。桌面的高度可能有误差,物体可能在移动过程中滑动,机器人的传感器永远有噪声——用单一策略覆盖所有情况,几乎不可能。
二、动作思维链:让机器人”先想再做”
GO-2的核心创新是异步双系统架构:慢系统负责”想”,快系统负责”做”。
慢系统(低频)像人类的”大脑皮层”,在执行任务前先在高层生成完整的动作序列规划。比如指令是”把水杯从桌子左边移到右边”,慢系统会先规划:识别水杯位置→判断抓取角度→规划手臂移动路径→预判可能的干扰→确定放下的位置。这整个思考过程在后台完成,不影响实时控制。
快系统(高频)则像小脑,实时修正偏差。如果桌面高度有误差、手臂行动中有抖动,快系统会立即微调,保证动作精确执行。两个系统各司其职、互不干扰,这也就是为什么GO-2能同时做到”规划准确”和”执行稳定”。
图:异步双系统架构示意,慢系统做规划,快系统实时修正
三、数据说话:98.5%成功率是什么概念
看技术报告最怕的就是”业内领先””显著提升”这种模糊词汇。GO-2直接给了硬数据:
1. LIBERO Benchmark 平均成功率 98.5%,覆盖四类核心任务(拾取、放置、抽屉操作、关节操作),这个数字是目前全球最高的。之前的SOTA方法大概在85%-90%区间,GO-2直接拉高了将近10个百分点。
2. Genie Sim3.0 真实环境测试成功率 82.9%。这是用仿真环境训练后直接部署到真实机器人的”零样本”测试,不是精心调参后的”表演赛”。82.9%意味着你把机器人从仿真器里拎出来,放到真实桌面前,它大概率能正常工作。
3. 动作思维链相关论文已被 CVPR 2026 接收。CVPR是计算机视觉领域的顶会,能发出去说明学术界也认这个工作的原创性。
四、为什么这个时间点值得关注
2026年被称为”具身智能元年”,但大多数玩家还在卷”手臂有多少个关节””灵巧手有几根手指”。这些当然重要,但智元选择从”大脑”切入,是一个更有战略眼光的选择。
硬件的迭代周期长、供应链复杂,而具身大模型本质上是一个软件问题——一旦有突破,适配各种硬件平台的速度远快于从头造一个机械臂。智元这套架构如果验证有效,未来接入不同形态的机器人(轮式、臂式、甚至四足)都会相对容易。
还有一个值得注意的信号:动作思维链不只是”让机器人更准”,而是让机器人第一次有了可解释的决策过程。慢系统的规划是可以被读取和审查的——这在工业场景、医疗辅助场景里,是合规和安全的前提。
五、从业者怎么看
知乎上有从业者评论说,GO-2的意义不在于”又刷了一个SOTA”,而在于”证明了慢快分离的架构在工程上是可行的”。之前学术界也有类似的想法,但要么是算不动,要么是延迟太高无法实时。智元能把这里面的工程难题解决,本身就是壁垒。
当然,现在说”具身智能颠覆一切”还太早。98.5%是在标准Benchmark上测出来的,真实家庭环境、户外环境的表现还需要更多验证。但从技术路径上看,GO-2至少证明了一条走得通的路。
六、普通人什么时候能用上
如果你是科技爱好者,最快体验到这类技术的方式可能是:智能家居厂商引入具身大模型能力,让家用机器人真正”听得懂人话”——不是每句话都要精确的唤醒词,而是能理解模糊指令和真实意图。
如果你是开发者或AI从业者,GO-2的开源计划和API开放时间值得关注。智元目前已经和多个高校、实验室有合作,CVPR论文放出来之后,社区复现和改进的速度会加快。
如果你是投资者,具身智能目前还在早期,真正能落地的公司不多——硬件、算法、数据三块缺一不可。智元至少在算法这块拿出了差异化的东西,接下来看它能不能把工程化和商业化跑通。
茶话君说:动作思维链的本质,是让机器人第一次有了”思考过程”而不是”条件反射”。这件事本身的意义,可能比98.5%的数字更值得讨论。
—— 今日份的AI观察就到这里,如果你觉得有收获,欢迎转发给身边的朋友。有什么想聊的话题,评论区见。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:黑客茶话会 我真tm厉害 我真tm厉害《【AI大模型】智元GO-2具身大模型:动作思维链如何颠覆机器人控制范式》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。





![[工具教程]10分钟上手TurboIntruder|新手零门槛,并发速度直接拉满](/images/random/titlepic/14.jpg)


评论