解密机器人大模型RFM-1：Covariant创始人陈曦专访

7,528 0 2800

2024年3月，在通用机器人的发展史上，绝对是值得纪念的一个月。3月11日，知名AI机器人创业公司Covariant推出了首个机器人基础模型RFM-1（Robot Foundation Model-1），这是世界上首个基于真实任务数据训练的机器人大模型，也是最接近于解决真实世界任务的机器人大模型；次日，Covariant创始人Pieter Abbeel的徒弟和徒孙Sergey Levine和Chelsea Finn宣布创办Pi（Physical Intelligence），一家旨在为不同形态的机器人设备提供统一机器人大脑的AI机器人创业公司（对Pieter Abbeel，Sergey Levine和Chelsea Finn在当今AI机器人领域有多么重要的存在，可以参考AI+Robotics华人图谱）；紧接着，北美知名人形机器人公司Figure发布Figure 01 demo，展示了基于GPT4V大模型在人类指令的引导下顺滑地完成各类任务的能力，炸翻国内科技媒体。

不得不让人感慨，机器人大模型的timing到了吗？这个领域的进展，正在以天为单位刷新人们的认知。

在2023年6月，我曾经写过一篇关于Covariant的深度报道Covariant：三个华人小伙创办的AI4Robot独角兽，是当时中文互联网资料里关于这家公司最全面的一篇报道，我个人关于AI机器人领域的关注也源于Covariant。在上周Covariant发布机器人大模型RFM-1之后，我非常荣幸邀请到Covariant的创始人陈曦（Peter Chen）进行专访，解密世界上首个最接近于真实世界的机器人大模型RFM-1。

1. Covariant RFM-1概览

Covariant 成立于2017年，总部位于美国加州硅谷，致力于构建一种通用人工智能，帮助机器人观察、学习和与周围的世界进行互动。创始团队来自于 Open AI, 加州伯克利大学人工智能实验室 (BAIR)，四个创始人成员分别是UCB的AI机器人大佬Pieter Abbeel和他的三位博士生陈曦（Peter Chen），张天浩（Tianhao Zhang）和段岩（Rocky Duan）。关于Covariant更详细的历史可以参考Covariant：三个华人小伙创办的AI4Robot独角兽。

Covariant于2024年3月13日宣布推出RFM-1，是一个基于一般互联网数据以及富含物理真实世界交互数据训练的机器人基础模型，Tech Crunch将RFM-1称为“ChatGPT for robots”。RFM-1不仅构建了机器人理解人类物理环境的世界模型，同时拥有基于人类语言、图片等多模态与物理世界互动的能力，它的推出标志着人类首次将大量真实机器人任务数据融入AI大模型，将AI向物理世界的探索推进了一步。

RFM-1 介绍视频（来源：Covariant官网）

视频链接：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

RFM-1是一个基于Transformer的大模型，它拥有80亿参数，基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的any to any序列模型。通过将所有模态tokenize为一个共同空间（common space），并用自回归预测下一个token，RFM-1利用其广泛的输入和输出模态来实现多样化的应用。例如，它可以执行图像到图像的学习，用于场景分析任务，如分割和识别。它可以将文本指令与图像观察结合起来，生成所需的抓取动作或运动序列。它可以将场景图像与目标抓取图像配对，以预测视频的结果或模拟沿途可能发生的数值传感器读数。关于any to any特性，我们在下文的专访中会特别解释。

Any to any介绍（来源：Covariant官网）

视频链接：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

2. 陈曦（Peter Chen）个人简介

陈曦（Peter Chen）是Covariant.ai的首席执行官兼联合创始人。Covariant是一家领先的AI机器人初创公司，已经融资超过2亿美元。Covariant正在构建用于机器人学的基础模型，使机器人可以对物理环境进行识别、推理和操作。在创办Covariant之前，陈曦（Peter Chen）曾是OpenAI的研究科学家，也是加州大学伯克利分校人工智能研究实验室（BAIR Lab）的研究员，他专注于强化学习、元学习和无监督学习。他在领先的学术期刊上发表了30多篇论文，引用超过2万次。

2. 解密RFM-1

RFM-1的由来

机器人基础模型是我们创立Covariant时的一个核心想法。我们四位创始人中有三位来自OpenAI，包括我自己、CTO Rocky Duan和首席科学家Pieter Abbeel。我们创立Covariant的一个主要原因是意识到要在机器人领域实现通用型智能，必须在现实世界中收集数据。因此，Covariant从一开始就努力将真实的机器人部署到客户现场，并在实际环境中大规模收集数据。因此，从数据收集的角度来看，RFM-1的概念可以追溯到公司成立之初的思路。

谈到具体的模型框架transformer，以及any to any的multi-model model，这是我们过去一年多来的尝试。随着LLM和多模态大模型的发展，我们最初的愿景变得更加可能。因此，RFM-1是我们六年来一直梦寐以求的东西，只是最近一年我们确定了使用何种模型框架和方法来具体实现这一想法。

RFM-1是机器人的"ChatGPT时刻"吗

这个问题的答案取决于对"ChatGPT时刻"的定义。如果我们指的是在接下来机器人领域是否会有迅速的发展，那答案肯定是肯定的。另外，如果我们考虑到机器人的进步是否会借鉴和采用像ChatGPT这样的技术和方法，我认为答案也是肯定的。

但是，如果问现阶段机器人智能是否已经像ChatGPT那样通用，我认为还没有达到这个水平。不过，这种情况很快就会改变。

如何看待机器人大模型竞争

对于机器人大模型领域的竞争，我认为Pi（Physical Intelligence，文章开头提过）的成立是一件令人激动的事情。机器人市场的潜力是非常巨大的，机器人大模型可以在数十亿级别的规模上应用，即有数十亿台机器人由机器人基础模型驱动。在这样庞大的市场中，有更多具备能力的公司在这个领域取得成功对所有人都是件好事。

然而，就目前而言，Covariant拥有明显的领先优势。多场景和多硬件的适配能力对任何机器人大模型来说都是必不可少的。在Covariant的实践中，我们已经积累了丰富的多硬件适配经验。举例来说，Chelsea Finn等人在离开Google之前创建了一个名为OpenX的数据集（对应RTX项目的数据集），他们联合了全球20多个不同的机器人实验室，收集了大约一百万条数据，这些数据来自于22种不同的机器人硬件。而在实际的生产环境中，Covariant已经部署了超过30种不同类型的机器人，这意味着我们一家的机器人种类已经超过了OpenX整个数据集中包含的机器人种类。

因此，对于RFM-1模型而言，它的训练数据不仅局限于一种硬件和一种场景。要想打造出真正优秀的机器人基础模型，它必须在不同的硬件、不同的任务和场景中适配，因此训练数据集也必须包含不同的硬件和场景。

如何理解RFM-1模型结构

简单来说，你可以将RFM-1视为一个大型语言模型，但它不仅仅预测语言的token。在RFM-1中，token不仅来自文本，还包括机器人的动作、传感器数据、图片、视频等多种模态。针对这些不同的模态，有相应的tokenizer将它们全部转换成token。最终，RFM-1实际上就是一个大型语言模型，但它的输入和输出预测不仅限于人类语言这一模态。这是对RFM-1在输入和输出预测方面的最简单理解。

如何理解any to any

RFM-1之所以如此强大的原因之一就在于any to any。传统的AI机器人通常是以图像作为输入，输出动作，或者以三维数据作为输入，输出动作，但这些模型存在着很大的局限性。RFM-1的一个重大突破是，它可以作为一个世界模型，预测未来会发生什么。对于这个模型来说，它最终都在进行下一个token的预测，而预测下一个动作、图像或视频只是不同的token而已。只要给出适当的提示，告诉它想要做什么，它就可以进行相关的预测。这也是RFM-1如此强大的原因之一，我们可以让它学习世界模型，从而理解物理世界，并基于这个理解做出更好的机器人动作。它对于物理世界的理解还可以用作模拟器，在模拟器中可以避免一些不良动作，进行规划，类似于Alpha-Go的规划方式。

你可以将RFM-1视为一个非常通用的模型，与传统的AI机器人模型不同，它不是单一用途的，因此我们引入了any to any的概念，因为有太多的可能性。如果是文本到文本，那就是传统的语言模型。如果是图像到机器人动作，那就比较容易理解，这是一种机器人策略。如果是文本到图像到策略，那就是人类通过语言与机器人沟通，机器人根据语言任务拆解和相关任务图像执行动作。甚至可以基于当前图像，告诉它目标图像，然后输出动作。any to any的核心意思是它可以适应各种输入模态和输出模态。

但确实，any to any是一个比较抽象的概念，因此我们在博客中提供了一些具体的例子来解释，而当我们将RFM-1实际应用到客户中时，我们将继续发布一些功能，让大家对any to any有更直观的理解！

RFM-1调用其他第三方语言模型吗

没有调用任何第三方的API，RFM-1它本身就是一个可以理解文本的多模态大模型，它也可以给出语言的反馈。甚至可以把它仅仅当成一个大语言模型来用，当然肯定没有ChatGPT那么好用，因为很多参数要分散在理解机器人的事情上面。

为何要输出多模态

作为机器人大模型，RFM-1不仅仅满足于输出动作，而是输出“any”多个模态，这是为了增强其通用性。

如果我们仅仅将RFM-1视为一个策略（policy），那它实际上是将不同的输入映射到动作上，例如给予自然语言指令、目标，甚至是一个展示某项任务的视频，让机器人学习并执行。作为通用模型，它应该能够理解视频中发生的事情，并且能够复现这些情景。没错，它的输出本质上都是动作，从这个角度来看，它并没有什么特别之处。

但如果我希望这个模型能够更好地理解视频，甚至学习到世界模型，一个非常好的方法就是给它视频的前半段，然后让它预测视频的后半段会发生什么。这就是所谓的“视频输入和视频输出”。只要进行大量的这种训练，这个模型将会具有对视频和物理世界更深入的理解，这个理解也可以在执行动作时加以利用。另外一个用途是将这种世界模型作为模拟器来使用。

RFM-1使用了哪些数据

RFM-1使用了互联网数据和Covariant部署在全世界客户场景中的真实机器人数据。互联网的数据能够为模型提供文本或图片的常识性理解，但对于一个世界模型来说，互联网上的数据通常是不够的。因为互联网上的数据往往缺乏动作信息。例如，假设你观看一些公开的视频，通常视频中并没有包含动作信息，无论是人类行为还是机器人操作，你只是被动地观察，而不知道其中的具体动作。在这方面，真实的机器人数据起到了至关重要的作用，因为它包含了大量的机器人动作和结果的信息。在互联网上，你无法获取到这种关于动作的具体信息，因为互联网上的数据只提供了时间上的前后状态，而无法捕获其中的动作细节。

举例来说，尽管你可以通过观察一个人拿起物体来猜测他正在进行这个动作，但你无法知道他用了多大的力量、手指放在了什么位置、以及具体是如何抓取物体的。这些细节数据在互联网上是无法获取的。

因此，尽管互联网数据可以用于训练视频、图片或文本生成模型，但要学习一个完整的世界模型却非常困难，因为缺乏动作信息。Covariant部署的机器人硬件提供了大量的传感器和关节数据，可用于模型训练。此外，我们还可以根据需要改变数据收集方式，因为我们可以控制硬件。例如，如果发现某种数据模态更有用，我们可以更新已有的机器人以收集相应的数据。

RFM-1和Figure01的路径

背景信息：Figure 01路径涉及接入像GPT4v这样的视觉语言模型，然后在此基础上添加机器人动作模型；而RFM-1是一个更加端到端的模型，直接将多模态输入映射到输出动作。

我认为最终的关键在于，无论采用何种技术路线，只要能够实现落地并产生效益，就是一条好路线。无论朝任何方向前进，都有可能取得成功。最终，机器人的成功与否取决于它是否能够在生产环境中为客户带来效益，并且该技术是否可扩展，能否在多个场景下成功推广。

对基于多模态大模型（比如GPT4v或Gemini）接动作模型的路线，你会发现它们在进行demo时毫无问题，但是，要使机器人从实验室的demo变为可以在生产环境中使用的，其最大的差别在于稳定性和性能。就目前而言，市场上最优秀的多模态大模型GPT4v，其推理成本非常高，而且在可靠性方面存在问题。举个例子，在相对密集的场景中，比如将十个苹果放在一个篮子里或将3、4件衣服揉在一起，然后询问GPT4v统计图片中的物品数量，测试结果显示其成功率并不高。如果依赖GPT4v的上层决策出现错误，那么后续的底层控制将无法实现所需的稳定性。

如何加速数据收集

首先，我们自身正在快速扩展规模，不仅仅是通过获取新客户，而且是通过我们已有客户的订单量增长。如果我们能够处理所有这些订单，我们的数据收集速度将提高一个数量级以上。

另一方面，随着RFM -1的成熟，我们计划将其开放给其他机器人公司，类似于OpenAI的GPT API模式。通过向更多人开放这一模型，我们将能够加速数据收集的速度。

关于RFM-1 API

Covariant将在不久的将来推出面向公众的RFM-1机器人大模型 API，传统机器人或新创公司都适用。在LLM领域，当我想要进行自然语言处理时，我不会自己训练一个独立的模型，而是会使用OpenAI的API。我可能对它进行prompting、fine-tuning，或者进行retrieval和generation，然后基于这些构建我的新自然语言处理应用程序。

对Covariant来说，我们希望为未来数以百万计、数以千万计、数以亿计甚至数十亿的机器人提供大脑，它不仅仅是单一机器人应用，也不仅仅是硬件。未来将会有大量的机器人开发者和机器人公司，接我们的API，我们希望成为他们的GPT平台。他们可以依赖我们来解决大部分困难且数据密集的智能问题，但这并不意味着他们不需要做其他工作。他们仍然需要进行硬件开发、人机交互设计，并准确把握场景，我们希望能够为他们提供支持。

作为世界模型的RFM-1

RFM-1是真正意义上的世界模型。Sora具备成为世界模型的潜力，但它目前还不是，因为它没有动作数据。如果Sora模型只是在游戏引擎中训练，而没有真实世界的视频数据，那么它学到的物理模型将会存在偏差，因为游戏引擎生成的视频中的物理规律通常与现实世界不一致。

如果Sora只是在YouTube上训练，而且只用了真实视频作为全部训练集，那它应该能够理解一部分物理世界的运行规律。但Sora缺少的是什么？Sora缺少的是中间的关键概念，即它没有对动作进行理解，它只是拥有一些视频，然后我用GPT为它生成了一个长长的说明，但实际上我无法指出视频中的具体行为者。

比如我们看到他用拳头砸向墙壁，但我们无法确定施加了多大的力。无论是他的拳头受伤了，还是墙壁被砸坏了，他只能描述事件的发生过程。他只能说拳头碰到了墙壁，然后墙壁坏了，但实际上他并不了解内在的动作过程。因此，Sora虽然具备成为世界模型的能力，但它缺乏对动作的理解，这使得它很难学习到动作结果的因果关系，尽管它应该能够学到很多相关信息，但这些信息可能不够准确。

具身创业，何去何从

大模型在所有领域都一样的，就它最终应该只会有几家跑赢出来。因此，如果你觉得自己无法成为那几家大模型赢家之一，不论是在机器人领域还是其他领域，那就应该考虑去做应用层或工具链相关的事情，这方面是现在是投身到机器人非常好的时间。

随着机器学习大模型的迅速成熟，这个领域的发展速度也会加快。无论其他人的进展如何，在我们这里可以看到机器人大模型的进展非常非常快。另外，硬件技术的成熟速度都会非常快，例如，像Figure这样的公司获得的投资以及国内对人形机器人、移动机器人和机械臂的投资都在增加，这也将促进硬件技术的发展。随着越来越多的产品推出和公关活动的开展，公众对机器人的接受度也将迅速提高。因此，现在是一个非常好的时代来从事机器人应用的开发，以及是在构建基础设施方面。将注意力放在这些领域都是非常明智的选择。

具身投资，何去何从

现在这个时间点，可能最值得关注的还是机器人大模型和工具链基础设施，但我觉得这种情况可能会在一年内迅速改变，一年之后可能会是机器人领域有很多机会的时间。

但从另外一个角度，如果现在能够投资一家应用型公司，并且相信他们能够度过最初一到两年的学习阶段，那可能是值得考虑的。因为我们可以看到，像Language space这样的应用层面公司，比如Character.ai和Perplexity，他们在做应用层的时候都是在ChatGPT推出之前。那个时候，底层的基础模型尚未完全成熟，他们快速迭代所，并获得了怎么基于不断演进的基础模型做应用的经验，使得他们可以很快跑出来。所以，如果我们能够放宽视野，从今年开始进行试错和学习，我认为并不会太早。但如果团队不能迅速取得商业上的成就，那可能会面临融资困难。不过，如果团队和市场都足够好，我认为从今年开始进行应用层面的尝试也是可行的。

4. 愿景如愿

在完成这次专访之后，我重新看了一遍之前的文章Covariant：三个华人小伙创办的AI4Robot独角兽，惊讶地发现Covariant创始团队在2018年创立公司伊始的初心和如今2024年RFM-1的推出是如此的一致。我再次将Pieter Abbeel说的这段话引用出来，作为本文结尾：

“推动人工智能快速进展有两个重要因素：一方面是提供给人工智能学习的经验，另一方面是人工智能架构方面的研究突破。

经验的关键：机器人必须在真实世界中进行学习，它们必须与人类相互作用的无限范围的物体进行互动，并执行人类执行的无限数量的任务。

架构的关键：真实世界的数据比实验室的数据要多样性更高，我们需要建立根本性的新架构，以从这样的数据中进行学习。
因此，在2018年初，我们开始了一段旅程，让机器人接触真实世界，并研究能够吸纳这些经验的新型人工智能架构（远比典型实验室经验更丰富）。”

References：
https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/https://covariant.ai/insights/rfm-1-a-world-model-that-understands-physics/https://techcrunch.com/2024/03/11/covariant-is-building-chatgpt-for-robots/

# AI行业动态