车东西3月17日消息,今日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发布了理想汽车下一代自动驾驶基础模型MindVLA-o1
根据詹锟的介绍,MindVLA-o1以原生多模态MoE Transformer为核心,通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习(Closed-loop RL)和软硬件协同设计(Hardware–Software Co-Design),构建了面向物理世界智能的自动驾驶基础模型,让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效
而根据詹锟的说法,MindVLA-o1基础模型正在向具身智能通用模型进化,他表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人
同时引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,并通过下一帧预测(Next-state prediction)作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合空间结构与时间上下文的高质量3D表示