探秘机器人:从形态到 AI 控制,再看特斯拉擎天柱的互动效果

admin 2024-10-25 阅读:7

我们不会完全专注于一种类型的腿、灵巧的手或轮子,但在具体产品中可能会有不同的形状。例如,我们的一些产品是双足的,有些是轮式的。

虎秀:我发现STAR1跑步时双手会轻微摆动以保持平衡。

陈建宇:这是机器人强化学习的结果。一方面,它会模仿人类跑步的形式。另一方面,机器人会根据自身素质和风格自主学习合适的范围。人类给予的东西是比较小的。

虎秀:你从一开始就使用人工智能方法吗?

陈建宇:当然,第一步让他走路,我们也用了模型控制的方法。但其实从一开始我就坚信一定要用AI来解决。

虎嗅:您觉得特斯拉擎天柱在“我们,机器人”发布会上展示的交互效果如何?

陈建宇:从操作层面来说,还是比较先进的。此外,机器人能够在现场实时交互,基本没有错误,说明硬件的可靠性相当不错。

但这是通过员工远程控制摇动操作来实现的。由于其实时语言交互性,即使是GPT-4o也无法达到一个水平。即使特斯拉也无法制造出比 GPT 更强的大型模型。

虎秀:现在大型语言模型的Scaling曲线已经趋于平缓,那么目前体现智能的Scaling曲线处于什么阶段?

陈建宇:非常早期,介于 Transformer 和 GPT1.0 之间。

虎秀:在大语言模型领域,国内公司的技术路线基本都在走OpenAI。在体现智能领域,这是否也是模仿国外先进路线的做法?

陈建宇:比较少。虽然谷歌在具身大脑领域处于领先地位,但他们还没有达到GPT1.0的水平。因此,他们缺乏可以直接重用的方法。他们还需要从首要原则出发去思考如何去做。

你必须有自己的想法和想法。如果直接复制的话可能会出错。

虎嗅:国内和国外的差距有多大?

陈建宇:大家还在探索中。也许特斯拉会在某些方面领先,但他们还没有看到最终的答案。

目前这个领域还没有像OpenAI这样不可逾越的存在。他们是可以被超越的。

只思考而不学习是危险的

虎嗅:现在大模型在体现智能领域的应用与您刚开始探索时相比有什么不同?

陈建宇:之前很多人的想法是,给机器人装上一个大模型,利用它的思维能力,它就会变得更聪明。然而,小脑(物理本体交互)仍然不智能。它不能被认为是一个完整的数据驱动,也不能通过规模变得更强。

虎秀:所以您认为小脑的不智能是目前具身智能发展的限制条件?

陈建宇:是的,从一般的角度来看,大脑(语言和图像处理能力)更接近人类一般智能,但小脑(身体交互)还不够。

小脑也需要使用类似于大型模型的方法来增强通用性。小脑是与身体进行物理相互作用的层面,因此需要弥合这一差距。小脑能力如果不提高,就永远停留在语言模型的范畴。

虎秀:但是现在研究小脑的公司团队并不多。

陈建宇:原因可能是,第一,小脑研究对学术能力的要求还是比较高的。其次,一些纯AI背景的团队可能会更关注大脑研究,而如何与物理交互是机器人团队正在思考和研究的问题。

虎秀:对小脑的研究是我们和其他公司最大的区别吗?

陈建宇:是的,我认为这是核心的地方。稍后我们将统一大脑和小脑。就像人类的思维和行动自然是统一的一样,逻辑思维和行为本身也是一体的。

虎秀:如何让大脑和小脑统一?

陈建宇:我们会一步一步来做,因为直接完成整个事情是非常困难的。让我们首先从小脑的核心部分开始放大。首先让物理层面的交互能力强起来,然后逻辑思维等抽象能力就会逐渐增强。

就像一个不能动的机器人,无论它怎么想,也只是一堆废金属。

虎秀:你是什么时候决定走这条路的?

陈建宇:从本科时的步态规划与控制,到博士期间研究自动驾驶的行为决策规划,我其实一直在研究小脑及其向大脑的延伸。

虎嗅:您现在还比较看好哪些技术方向?

陈建宇:从大的角度来说,我们需要端到端的开放。你不能先建立一个感知网络,然后建立一个决策网络,然后添加许多行动网络。这相当于很多小模型堆在一起,并且无法像大模型那样进行缩放。

虎秀:现在大家都在做端到端?

陈建宇:其实能做到端到端的不多。李飞飞做的很多工作都是直接调用GPT的。

具身大脑的觉醒

虎秀:2023年,您做出了世界上第一个将大型语言模型与人形机器人相结合的学术著作。当时为什么想到用大模型来做这个?

陈建宇:这可能和我的经历有关。

目前有两个主要的具身智能玩家流派,一些具有计算机背景,大多数具有视觉偏见。当机器人和AI开始融合的时候,这群人开始关注机器人的问题。但此前,人工智能和机器人是两个领域。

我是从正统机器人的“坑”里走出来的,我的学科领域是专门研究机器人的。当我在清华大学读本科的时候,我就开始研究机器人的机械设计。当我在加州大学伯克利分校读博士时,我研究了机器人的底层控制。我的观点始终集中在机器人问题以及如何将现有学科与其整合。

所以我会对此更加挑剔。 2022 年,ChatGPT 发布之前,我想开发机器人的通用智能。

虎秀:2022年,大模型还没有体现出它的价值。当时用的是什么方法呢?

陈建宇:是的,当时没有像大模型这样强大的工具,所以我就用了以前的强化学习方法。

Transformer最大的意义在于它可以规模化并实现通用性。当时我看到了Transformer,但它还没有按比例缩放,只是一个小模型。当时看来并没有什么改善效果。

虎秀:你当时为什么开始提到具身智能这个概念?

陈建宇:之前有过一些话。我们通常称之为罗伯特学习(机器人学习),但我觉得这个词不够酷。我还是想强调智慧,所以我更喜欢用体现这个词。

虎秀:当时你确定这个大模型可以在具身智能方面发挥作用吗?

陈建宇:是的,我看到它在语言领域已经被证明是有效的。至少目前来说,这是唯一可能帮助我们实现普遍性的路径,而且非常有希望。

清华大学90后博士__清华最年轻博导

虎嗅:通过大模型实现通用的体现智能是业界的共识吗?

陈建宇:是的。没有其他方法可以达到这样的通用智能水平。或者我们别无选择。

它现已在语言领域得到验证,最近又扩展到多模态领域。所以实际上现在信心会更强。

机器人是一种更完整的形态,不仅有语言数据和行为动作,还有触觉、声音和与物理世界的交互。这是一种新的、不同的方法。

虎秀:具身智能的最终形态是人形吗?

陈建宇:肯定有人物,但也会有其他形式。例如,在某些场景中,机械臂可以完成工作。

人形制成后,其技术可以向后兼容并辐射到机械臂、灵巧手和假肢爪等领域。与通过假爪摇动操作来收集数据的方法相比,人形数据收集效率更高。在线人形操作的视频数据更多,我们可以利用更多的数据。

虎秀:您认为最终的机器人会是通用型的还是专门针对不同领域的?

陈建宇:我们的技术永远是通用型机器人,但最终落地的时候,可能是专门化的形式。就像一个大模型有一个通用的基础模型一样,它也可以在某个垂直领域进行微调。

虎嗅:现在有必要考虑机器人的量产吗?

陈建宇:在没有找到PMF的情况下,不要为了量产而量产。如果你还没有找到用户,如果你先生产一堆机器人,最终可能会得到一堆废金属。但我们必须做好量产、试产的准备。

虎秀:但是有的公司声称,客户很早就找他们生产了。

陈建宇:我们也收到了很多请求。很多人表示想给这个工厂增加一千台机器人。但机器人需要足够强大且成本足够低才能建立。否则工厂不会付钱。

虎嗅:未来兴动时代想成为一家什么样的公司?

陈建宇:我希望在机器人行业成为苹果那样的人。

苹果制造了颠覆性的产品。事实上,机器人还没有成为真正广泛应用的产品。我觉得机器人有这样的机会,也可能是颠覆性的创新。

虎嗅:星动纪元创立以来,你最大的感悟是什么?

陈建宇:我找到了一个平衡点。

你需要保持开放的心态,不要过于傲慢,这可能会阻碍你的成长。但另一方面,你需要坚定,尤其是在正确的事情上。

《虎嗅:星动纪元》由清华大学跨学科信息研究院孵化。姚期智先生提供了哪些支持和帮助?

陈建宇:他提供了很多资源和指导。 2022年,我一直在和他讨论如何制作人形机器人。

虎嗅:你们达成的共识是什么?

陈建宇:我们都相信人形机器人最终会改变世界。

评论(0)