理想发布新基础模型MindVLA-o1！五大创新技术，打通智驾与具身智能

车东西3月17日消息，今日，理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026，发布了理想汽车下一代自动驾驶基础模型MindVLA-o1

根据詹锟的介绍，MindVLA-o1以原生多模态MoE Transformer为核心，通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习（Closed-loop RL）和软硬件协同设计（Hardware–Software Co-Design），构建了面向物理世界智能的自动驾驶基础模型，让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效

而根据詹锟的说法，MindVLA-o1基础模型正在向具身智能通用模型进化，他表示：“当我们把视觉、语言和行动统一到一个模型中时，它已不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人

因此，自动驾驶只是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。”。在感知层面，理想汽车采用以视觉为核心的 3D ViT Encoder（3D视觉模型编码器），并利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构，使其在单一表示中同时具备语义理解与三维感知能力

同时引入前馈式3DGS表示（Feedforward 3D Representation），将场景拆分为静态环境与动态物体分别建模，并通过下一帧预测（Next-state prediction）作为自监督信号，使模型同时学习深度信息、语义结构与物体运动，最终形成融合空间结构与时间上下文的高质量3D表示