听得懂、看得见、找得到！理想汽车下一代自动驾驶架构MindVLA亮相-助攻财富

3月18日消息，理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025上发表演讲，分享了下一代自动驾驶技术MindVLA的最新进展。

据悉，MindVLA是理想全栈自研的机器人大模型。

该模型整合了空间智能、语言智能和行为智能，旨在将汽车从单纯的运输工具转变为贴心的专职司机，它能听得懂、看得见、找得到。

该技术基于端到端和VLM双系统架构，通过3D空间编码器和逻辑推理生成合理的驾驶决策，并利用扩散模型优化驾驶轨迹，整个过程需在车端实时运行。

MindVLA采用3D高斯作为中间表征，利用海量数据进行自监督训练，显著提升下游任务性能。

其LLM基座模型采用MoE混合专家架构和稀疏注意力技术，确保模型规模增长的同时不降低推理效率。

此外，MindVLA通过Diffusion模型将动作词元解码为优化轨迹，并结合自车行为生成和他车轨迹预测，提升复杂交通环境中的博弈能力。

该技术还基于自研的重建生成云端统一世界模型，实现大规模闭环强化学习，优化场景重建与生成效率。

听得懂、看得见、找得到！理想汽车下一代自动驾驶架构MindVLA亮相