PRO | MLLM：下一代自动驾驶的新解法

6,896 0 400

2023 年，几乎 AI 的每个领域都在以前所未有的速度进化，同时，AI 也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。

多模态趋势下，Transformer 作为 AI 大模型主流架构的局面是否会撼动？为何探索基于 MoE （专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？…

我们从过去的半年发布的 2023 年机器之心 PRO 会员通讯中，挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。

本篇解读来自2023年 Week52 业内通讯 👇 PRO | MLLM：下一代自动驾驶的新解法

专题解读 MLLM：下一代自动驾驶的新解法

日期：12 月 16 日

事件：腾讯地图、普渡大学等机构的研究者发布了关于多模态大型语言模型（MLLM）在自动驾驶中应用的综述论文。LLM 技术整合到自动驾驶领域，在驾驶感知、运动规划、人车交互和运动控制方面将带来显著的范式转变。

大模型技术在自动驾驶领域应用的历程回顾

1、自动驾驶类似于经验丰富的人类驾驶员所拥有的能力。而获取这种熟练程度主要有两种：一是通过模拟环境中的基于学习的技术；二是通过类似的方法从离线数据中学习。由于模拟与现实世界之间的差异，这两个领域并不完全相同，即存在「sim2real」差距。

2、自动驾驶的目标是通过大量数据收集和深度学习，解决驾驶能力的局限性。然而，由于数据收集和注释的高成本，以及模拟环境和现实世界环境之间的固有差异。在这种情况下，通过有效地利用大语言模型中内嵌的天生常识，可能会逐渐缩小这一差距。逐步增强自动驾驶系统的能力，使其更接近或可能达到理想的专家级驾驶熟练度。

图：LLMs 在自动驾驶领域的应用

3、LLMs 在自动驾驶中的结合应用：

① 规划与控制层面：LLMs 在自动驾驶决策过程中的应用，特别是在提供透明解释和增强系统可靠性方面；研究分为两类：一是对预训练模型的微调，二是通过巧妙的提示设计来挖掘 LLMs 的深层推理潜力；相关应用案例如 MTD-GPT、DriveGPT4、GPT-Driver 等，均在不同的驾驶决策任务中展现出优越性能。

② 感知层面：业界目前主要是在感知领域使用大模型，LLMs 在自动驾驶感知任务中的具有独特的价值和强大能力；典型工作如 PromptTrack、HiLM-D，将 LLMs 与 3D 检测任务和跟踪任务结合，性能优越。

③ 问答和生成层面：相关研究包括 Domain Knowledge Distillation、Human-Centric Autonomous Systems 等，利用 LLMs 处理自动驾驶相关的复杂问题。

4、视觉-语言模型（VLMs）在自动驾驶领域也有了越来越多的尝试。通过集成语言数据，车辆和交通系统能够更深入地理解现实世界环境，提高驾驶安全性和效率。今年 9 月，伦敦的自动驾驶 Wayve 提出了基于视觉-语言-动作模型（VLAM）开发的自动驾驶交互模型 LINGO-1，LINGO-1 基于各种视觉和语言数据源上训练所得，能够执行视觉问答（VQA）任务，并且能对驾驶行为和推理进行描述。VLAM 是 Wayve 在视觉语言模型（VLM）基础上的进一步探索。

5、近期，多模态大型语言模型（MLLMs）成为研究热点。MLLMs 结合了如 ChatGPT、InstructGPT 等大型语言模型的能力，能够处理文本和图像等多种模态的任务。MLLMs 的关键技术和应用包括多模态指令调整、多模态上下文学习、多模态思维链，以及 LLM 辅助视觉推理等。相比于 LLMs，MLLMs 更符合人类的感知方式，能提供更友好的界面和更广泛的任务支持。

自动驾驶是「具身智能」重要落地场景

1、具身智能的概念翻译于英文 embodied AI，字面意思为具有身体的人工智能。该概念的起源最早可追溯到 1950 年人工智能源点级人物艾伦·图灵的理论设想。

2、具身智能「大脑」包括算法驱动、基于 VLM（Visual-Language Model）理解信息等特点，具身智能「大脑」的决策感知体系和人类相似，都是基于图片转文本，再 Token 化理解。

3、自动驾驶是「具身智能」重要落地场景之一。具身智能机器人「大脑」在一定程度上和自动驾驶相似，在开放场景和路径规划上具有一定的迁移性。同时，具身智能机器人和自动驾驶的技术在算法层面也是相通的。

4、近期…

MLLMs 如何「加持」自动驾驶？

1、感知方面

以 MLLMs 在自动驾驶的感知方面扮演着关键角色。通过结合视觉、文本和其他模态的数据，MLLMs 能够更全面地理解和解释周围环境。这种多模态融合不仅提高了对交通场景的理解能力，还增强了系统对新情况的适应性。例如…

2、规划和控制方面

在规划和控制方面，MLLMs 利用自然语言处理技术，将复杂的驾驶任务转化为更易于理解和执行的语言模型问题。这种方法不仅简化了任务的处理过程，还提高了任务执行的准确性和效率。例如…

3、安全性和可解释性方面

①MLLMs 在提高自动驾驶系统的安全性和可解释性方面发挥着重要作用。通过生成与计划动作相关的解释，MLLMs 提供了对决策过程的深入理解，从而增加了用户对系统的信任…

4、控制器参数微调

MLLMs 在自动驾驶中还有助于控制器参数的微调，使其更符合驾驶员的偏好。这种个性化的适应性不仅提升了驾驶体验，还增强了系统的灵活性和响应能力。例如…

……

完整版专题解读「MLLM：下一代自动驾驶的新解法」已上架至机器之心Pro会员收件箱。新用户订阅限时特惠，单期低至 2.99 元！

Step 1：关注「机器之心PRO 会员」服务号
Step 2：进入服务号，点击菜单栏「收件箱」
Step 3：进入「收件箱」，点击「参考」板块，畅读往期所有专题解读

# AI行业动态

文章版权归作者所有，未经允许请勿转载。

关注公众号，免费获取chatgpt账号

工信部赛迪研究院：今年我国生成式人工智能企业采用率达15% 市场规模约14.4万亿元

ainavi

6,712 1200

LeCun、吴恩达等370多人签联名信：严格控制AI是危险的，开放才是解药

ainavi

7,072 800

本周NAND延续涨价现货DDR及渠道内存转跌

ainavi

10,488 3600

安徽出台政策打造通用人工智能产业创新和应用高地单个项目最高资助5000万元

ainavi

7,616 1200

AIoT是什么？为何突然变成了智能制造的主流趋势？

ainavi

5,520 3200

Stability AI CEO：人类程序员将在5年内消失

ainavi

0 1600

暂无评论

暂无评论...

PRO | MLLM：下一代自动驾驶的新解法

人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO

OpenAI允许员工出售股份，交易后估值超800亿，Altman在线招人

相关文章

暂无评论

相关文章

热门标签

PRO | MLLM：下一代自动驾驶的新解法

人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO

OpenAI允许员工出售股份，交易后估值超800亿，Altman在线招人

相关文章

暂无评论

相关文章

热门标签

广告位