世界模型下半场,星智源已经拿到船票。

作者 | 付饶

编辑 | 趣解商业科技组

世界模型正成为人工智能领域的下一个关键战场。

李飞飞、杨立昆近期都已押注世界模型;再往前,英伟达、Google、OpenAI等AI巨头均已将“世界模型”作为通往下一代智能的潜在路线。在6月16日举办的2026智源大会上,智源研究院院长王仲远也提出世界模型的重要性,并为世界模型划定了四条清晰的技术路线,引发了一场关于“世界模型”的讨论热潮。

在智源大会上,智源研究院孵化的具身智能公司星源智正式发布了全球首个具身交互世界模型——ω-EVA(Omega-EVA),标志着这场从数字世界迈向物理世界的竞赛,正式进入了落地验证阶段。

可以说,这不仅仅是一次产品发布,对于星源智技术团队来说,这是针对“世界模型如何落地具身智能”给出的一份硬核答卷,也是通往“物理AGI”世界的船票。

然而,在手的船票不光是登上世界模型这艘船的积极信号,其实也蕴含着另一个意思:航程才刚刚开始。

01.一张登船票

世界模型是现在AI圈里最热、但却没有统一标准的词。

在智源研究院的框架下,王仲远将世界模型的技术路线分成四条:以语言为中心的VLA路线、以像素为中心的视频生成路线、以3D结构为中心的仿真路线、以视觉表征为中心的JEPA路线。

而星源智此次发布的具身交互模型ω-EVA则不同:以“交互”和“行动”为中心的潜空间建模,更关注世界模型如何真正进入机器人实时决策过程,让世界模型从训练辅助工具变成行动决策中的反馈模块。

具体而言,ω-EVA模型的特点在于其独创的“预演、验证、行动”(Envision, Verify, Act)闭环逻辑。该模型通过学习“当前状态—动作—未来状态”之间的动态关系,在潜空间中捕捉运动物体、交互对象与关键状态变化,并将这一能力用于动作生成、内部预演和动作修正。

简单来说,星源智聚焦于机器人动作与环境变化之间的因果关系,让机器人预判自己的每一个动作将如何改变物理世界的状态,而非单纯依赖视觉画面的时序关联去生成未来画面。

在智源大会的展区,星源智用一个被观众随机打乱的华容道棋盘,直观地展示了这一能力。

图:星源智展台

据星源智工作人员透露,复原华容道棋盘的机器人并非简单地识别棋子,而是在执行前先在脑中“想象”移动滑块后的全局变化,根据推演结果优化动作方案,最终完成复原。

这并不是预设程序,而是模型对物理约束和因果关系的实时推理。在星智源联合CEO、智源研究院具身交互世界模型研究中心负责人孙振国看来,“世界模型不应该只在训练时预测未来,而应该真正参与动作生成。”

他以华容道为例进一步说明,华容道看似是逻辑推理题,但对机器人而言,它更接近一次连续决策:每一步移动都会改变当前局面,也会影响后续路径是否可达。机器人需要理解的不只是“现在看到什么”,还包括“如果这样移动,接下来会发生什么?”——这正是星源智具身交互世界模型 ω-EVA 试图回答的问题。

图:星源智联合创始人 孙振国

对于具身智能公司来说,物理世界的真实任务,从来不会按照固定时间窗口整齐发生,它更像一串自然衔接的事件,伸手、接触、抓取、移动、放下,每一个关键变化,都对应着动作里的自然关节。

当下的行业现状是,大多数世界模型仍停留在“离线预测”或“环境模拟”阶段,作为辅助功能存在。机器人在执行任务时,往往只能被动执行指令,无法预判动作带来的连锁反应,导致在复杂物理环境中作业稳定性不足。

星源智要解决的就是这样的问题。

此外,在技术路线上,星源智的技术架构上采用“具身大小脑”协同方案。这一架构与具身智能明星公司PI、Figure AI的“快慢系统”思路一致。

当前世界模型既包括未来视频生成路线,也包括JEPA等潜空间表征学习路线。星源智ω-EVA同样采用潜空间建模,但进一步强调动作候选与想象后果之间的实时交互,让未来预测结果能够直接参与动作修正。

一定程度上,这种端侧部署的确解决了具身智能的痛点——高延迟致命伤。星源智CEO刘东打了个比方:“如果机器人身上带着十几个传感器,每秒几个G的数据传到云端,等指令回来几秒后,机器人可能已经撞上了障碍物。”

他表示,“这也是ω-EVA 的优势,重新定义了世界模型在机器人系统中的作用,让预测结果真正反哺动作生成,可以弥补具身智能领域的技术短板,也将赋能工业操作、服务、医疗等多品类机器人,加速通用具身智能技术走向规模化落地。”

02.有机遇也有挑战

回顾星源智,尽管去年才入局,创立仅十个月,但这家由智源研究院孵化、专注具身大脑业务的初创公司,通过走“软硬一体、端侧部署”的全栈路线,已累计融资10亿元,并在商业化方面取得早期订单进展。

在商业路径上,星源智想得很明白,明确表示不做机器人本体,只做“卖铲人” ,提供软硬一体的具身大脑解决方案。创始人兼CEO刘东透露,中国制造业不缺硬件能力,真正稀缺的是能跨本体、跨场景适配的“大脑”。

随着具身智能从单点动作走向复杂任务执行,“大脑”的作用越来越重要,而其中世界模型正在成为行业共识中的关键能力。

图:星源智机器人现场递咖啡

尽管拿到了世界模型的船票,但星源智和整个行业面临的挑战,也不容忽视。

一方面,是技术路径的“路线之争”并未消除。

虽然ω-EVA证明了“交互闭环”的可能性,但目前来讲,以VLA(视觉-语言-动作)模型为代表的现有路线依然占据主流市场。

王仲远此前曾坦言:“VLA是当下,世界模型是未来。” 对此,星源智并不否认语言理解的重要性,但其基座依然是VLM模型。虽然VLA模型目前在工业分拣、服务机器人等特定场景中已经取得了不错的落地效果;但局限性同样明显,如泛化性差、缺乏物理常识、主动探索能力不足等等。

对于星源智来说,ω-EVA野心在于补全“预测”与“动作”之间的短板。如何让市场接受这种“VLA+世界模型”的混合范式,仍需教育成本。

另一方面,是真实物理数据的“匮乏困境”。

构建真正的世界模型,需要涵盖力觉、触觉、深度、三维点云的全模态数据,先不说采集不同场景的数据难度高,更艰难的是在这些数据中还要抓取到“有效数据”。

孙振国指出,VLA依赖高质量的成功轨迹数据,8小时采集仅产出3小时有效数据;而世界模型能利用失败的轨迹,将效率提升至6-7小时。但这依然无法从根本上解决长尾场景数据的稀缺性。

此外,规模化商业落地仍需要探索。

尽管星源智已拿下70%以上头部本体厂商的份额,并宣称融资超10亿元,但刘东依然冷静地将当前具身智能比作“2015、2016年的自动驾驶”——大家瞄着L4、L5,但真正的L2还没大规模落地。

图:流水线上的机器人

对于星源智和整个行业而言,拿到船票只是航行的开始。

尤其当下,世界模型技术仍处在发展初期,行业目前没有完全达成共识。“技术创新是先行的,早于产品,早于系统,我们现在需要对于技术路径进行各种各样的探索,来促进世界模型的爆发。”王仲远坦言,“但最终,还是需要一个具体场景的系统或产品,来证明我们今天反复强调的物理可验证、长时序、因果逻辑推断等技术目标,能够真正落地应用于各种场景。”

从实验室进入真实世界,星源智通过具身大脑与世界模型,展示了一整套贯穿感知、理解、决策、执行与反馈的系统能力,已经展现出从模型能力到场景执行的落地能力。

但最终进入终端、进入系统、进入到真实任务中,世界模型的能力仍需要市场检验。毕竟对于当下具身智能行业来说,竞争焦点不只是模型发展、技术突破,稳定的、能够持续交付的落地场景能力才是重点。

特此声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
分享至

还没有评论,快来抢沙发吧!