机器人大升级？像人类一样推理，“拿捏”任意家庭用品！-（南京）软件科技有限公司

动态行业资讯

动态

机器人大升级？像人类一样推理，“拿捏”任意家庭用品！

发布时间：2025-02-24 15:43:49 阅读量: 496

最(zuì)近(jìn)，Figure AI 发(fā)布(bù)了(le)首(shǒu)个(gè)通(tōng)用(yòng)视(shì)觉(jué)-语(yǔ)言(yán)-行(xíng)动(dòng)（VLA）模(mó)型(xíng)——Helix，其(qí)能(néng)像(xiàng)人(rén)类(lèi)一(yī)样(yàng)推(tuī)理，将感知、语言理解和学习控制融为一体，可以通过自然语言直接控制人形机器人整个上半身。

Helix 可以在没有(yǒu)任(rèn)何(hé)特(tè)定(dìng)任(rèn)务(wu)演(yǎn)示(shì)或(huò)大(dà)量(liàng)手(shǒu)动(dòng)编(biān)程(chéng)的(de)情(qíng)况(kuàng)下(xià)，快(kuài)速生成长程、协作性的灵巧操作。其实现了多个“首个”：

完整的上半身控制：Helix 是首个能够对整个人形上半身（包括手腕、躯干、头部和单个手指）输出高速率连续控制的 VLA。

多机器人协作：Helix 是首个可在两个机器人上同时运行的 VLA，使它们能够解决共享的长程操作任务，操作它们从未见过的物品。

可直接商用：Helix 是首个在完全板载嵌入式低功耗 GPU 上运行的 VLA，可立即投入商业部署。

配备了 Helix 的 Figure 机器人只需根据自然语言提示，就能拾取几乎任何小型家用物品，包括数以千计它们从未见过的物品。
例如，当被要求“拾起沙漠中的物品”时，Helix 会识别出玩具仙人掌，选择最近的手，并执行精确的运动指令将其牢牢抓住。
与之前的方法不同，Helix 使用一组神经网络权重来学习所有行为——拾取和放置物品、使用抽屉和冰箱以及跨机器人交互——而无需针对具体任务进行微调。
Figure AI 在 X 上表示，“机器人的功能如果不发生重大变化，就无法进入家庭领域，现在，我们的机器人几乎可以处理任何家庭用品。”

人形机器人的“New Scaling”

家庭是机器人技术面临的最大挑战。与受控的工业环境不同，家庭中充斥着无数物品——精致的玻璃器皿、皱巴巴的衣物、散落的玩具——每件物品的形状、大小、颜色和质地都难以预测。机器人要想在家庭中发挥作用，就必须能够按需生成智能的新行为，尤其是针对它们从未见过的物体。

当前的机器人技术如果不作出重大改变，就无法在家庭中使用。目前，即使是教机器人学会一种新行为，也需要大量的人力：要么是数小时的博士级专家手工编程，要么是数千次的演示。如果考虑到家庭问题的实际规模，这两种方式的成本都非常高。

图｜获取机器人新技能的不同方法的 Scaling 曲线。在传统的启发式操作中，技能会随着手动编写脚本的博士们而增长；在传统的机器人模仿学习中，技能随着收集到的数据增长；而在 Helix 中，新技能可以用语言即时指定。

Figure AI 团队认为，人工智能的其他领域已经掌握了这种即时泛化的方法，如果能够简单地将视觉语言模型（VLM）中捕捉到的丰富语义知(zhī)识直接转化为机器人动作，将从根本上改变机器人技术的发展轨迹。

突然间，只需用自然语言与机器人对话，就能立即获得曾经需要数百次演示的新技能。但关键问题是：他们如何从 VLM 中提取所有这些常识性知识，并将其转化为可通用的机器人控制呢？

于是，他们构建了 Helix。

图片(piàn)

Helix：用(yòng)于(yú)整(zhěng)个(gè)上(shàng)半(bàn)身(shēn)控(kòng)制(zhì)的(de)“系(xì)统(tǒng) 1、系(xì)统(tǒng) 2”VLA
Helix 是(shì)首(shǒu)创(chuàng)的 “系统 1、系统 2 ”VLA 模型，用于对整个仿人上半身进行高速、灵巧的控制。

之前的方法面临着一个基本的权衡：VLM 骨架(jià)通(tōng)用(yòng)但(dàn)不(bù)快(kuài)速(sù)，而(ér)机(jī)器(qì)人(rén)视(shì)觉(jué)运(yùn)动(dòng)策(cè)略(è)快(kuài)速(sù)但(dàn)不(bù)通(tōng)用(yòng)。Helix 通(tōng)过(guò)两(liǎng)个(gè)互(hù)补(bǔ)系(xì)统(tǒng)解(jiě)决(jué)了(le)这(zhè)一(yī)问(wèn)题(tí)，这(zhè)两(liǎng)个(gè)系(xì)统(tǒng)经(jīng)过(guò)端(duān)对(duì)端(duān)训(xun)练(liàn)，可(kě)以(yǐ)进(jìn)行(xíng)通(tōng)信(xìn)：

系(xì)统(tǒng) 2：经(jīng)过(guò)互(hù)联(lián)网(wǎng)训(xun)练(liàn)的(de)板(bǎn)载(zài) VLM，工(gōng)作(zuò)频(pín)率(lǜ)为(wèi) 7-9 Hz，用(yòng)于(yú)场(chǎng)景(jǐng)理(lǐ)解(jiě)和(hé)语(yǔ)言(yán)理(lǐ)解(jiě)，可(kě)广(guǎng)泛(fàn)应(yīng)用(yòng)于(yú)各(gè)种(zhǒng)物(wù)体(tǐ)和(hé)环(huán)境(jìng)。

系(xì)统(tǒng) 1：快(kuài)速(sù)反(fǎn)应(yīng)视(shì)觉(jué)运(yùn)动(dòng)策(cè)略(è)，将(jiāng)系(xì)统(tǒng) 2 生(shēng)成(chéng)的(de)潜(qián)在(zài)语(yǔ)义(yì)表(biǎo)征(zhēng)转(zhuǎn)化(huà)为(wèi) 200 Hz 的(de)精(jīng)确(què)连(lián)续(xù)机(jī)器(qì)人(rén)动(dòng)作(zuò)。

这(zhè)种(zhǒng)解(jiě)耦(ǒu)架(jià)构(gòu)允(yǔn)许(xǔ)每(měi)个(gè)系(xì)统(tǒng)以(yǐ)其(qí)最(zuì)佳(jiā)时(shí)间(jiān)尺(chǐ)度(dù)运(yùn)行(xíng)。系(xì)统(tǒng) 2 可(kě)以(yǐ)“慢(màn)思(sī)考(kǎo)”高(gāo)层(céng)次(cì)目(mù)标(biāo)，而(ér)系(xì)统(tǒng) 1 则(zé)可(kě)以(yǐ)“快(kuài)思(sī)考(kǎo)”实(shí)时(shí)执(zhí)行(xíng)和(hé)调(diào)整(zhěng)动(dòng)作(zuò)。例(lì)如(rú)，在(zài)协(xié)作(zuò)行(xíng)为(wèi)中(zhōng)，系(xì)统(tǒng) 1可(kě)快(kuài)速(sù)适(shì)应(yīng)伙(huǒ)伴(bàn)机(jī)器(qì)人(rén)不(bù)断(duàn)变(biàn)化(huà)的(de)动(dòng)作(zuò)，同(tóng)时(shí)保(bǎo)持(chí)系(xì)统(tǒng) 2 的(de)语(yǔ)义(yì)目(mù)标(biāo)。

与(yǔ)现(xiàn)有(yǒu)方(fāng)法(fǎ)相(xiāng)比(bǐ)，Helix 的(de)设(shè)计(jì)具(jù)有(yǒu)几(jǐ)大(dà)优(yōu)势(shì)：

速(sù)度(dù)和(hé)通(tōng)用(yòng)性(xìng)：Helix 的(de)速(sù)度(dù)可(kě)与(yǔ)专(zhuān)门(mén)的(de)单(dān)任(rèn)务(wu)行(xíng)为(wèi)克(kè)隆(lóng)策(cè)略(è)相(xiāng)媲(pì)美(měi)，同(tóng)时(shí)还(hái)能(néng)对(duì)数(shù)千(qiān)个(gè)新(xīn)测(cè)试(shì)对(duì)象(xiàng)进(jìn)行(xíng)零(líng)样(yàng)本(běn)泛(fàn)化(huà)。

可(kě)扩(kuò)展(zhǎn)性(xìng)：Helix 可(kě)直(zhí)接(jiē)输(shū)出(chū)高(gāo)维(wéi)动(dòng)作(zuò)空(kōng)间(jiān)的(de)连(lián)续(xù)控(kòng)制(zhì)，避(bì)免(miǎn)了(le)先(xiān)前(qián) VLA 方(fāng)法(fǎ)中(zhōng)使(shǐ)用(yòng)的(de)复(fù)杂(zá)动(dòng)作(zuò) token 化(huà)方(fāng)案(àn)，这(zhè)些(xiē)方(fāng)案(àn)在(zài)低(dī)维(wéi)控(kòng)制(zhì)设(shè)置(zhì)中(zhōng)取(qǔ)得(de)了(le)一定成功，但在高维仿人控制中面临扩展挑战。

结构简单：Helix 使用标准架构——系统 2 使用开源、开放权重的 VLM，系统 1 使用基于 transformer 的简单视觉运动策略。

关注分离：将系统 1 和系统 2 分离开来后，可以分别对每个系统进行迭代，而不必受制于寻找统一的观察空间或动作表示法。

模型和训练细节

1.数据

他们收集了一个高质量、多机器人、多操作员的数据集，其中包含各种远程操作行为，总计约 500 小时。为了生成受自然语言约束的训练对，他们使用了自动标注 VLM 来生成后见（hindsight）指令。VLM 处理来自机载机器人摄像头的分段视频片段，并给出提示：“你会给机(jī)器(qì)人(rén)下(xià)达(dá)什(shén)么(me)指(zhǐ)令(lìng)，以(yǐ)实(shí)现(xiàn)视(shì)频中的动作？所有在训练过程中处理过的项目都不在评估范围内，以防止污染。

2.架构

这一系统由两个主要部分组成：系统 2 是 VLM 骨干，系统 1 是潜条件视觉运动 transformer。系统 2 基于一个 7B 参数的开源、开放权重 VLM，并在互联网规模的数据上进行了预训练。它将单目机器人图像和机器人状态信息（包括手腕姿势和手指位置）投射到视觉语言嵌入空间后进行处理。结合指定所需行为的自然语言指令，系统 2 将所有与任务相关的语义信息提炼为一个连续的潜在向量，并将其传递给系统 1，作为其底层动作的条件。

系统 1 是一个 8000 万参数的交叉注意力编码器-解码器 transformer，用于处理底层(céng)控(kòng)制(zhì)。它(tā)依(yī)靠(kào)一(yī)个(gè)完(wán)全卷(juǎn)积(jī)、多(duō)尺(chǐ)度(dù)的(de)视觉骨干网进(jìn)行(xíng)视(shì)觉(jué)处(chù)理(lǐ)，该(gāi)骨(gǔ)干(gàn)网(wǎng)由(yóu)完(wán)全在(zài)模(mó)拟(nǐ)中(zhōng)完(wán)成(chéng)的(de)预(yù)训(xun)练(liàn)初(chū)始(shǐ)化(huà)而(ér)成(chéng)。系(xì)统(tǒng) 1 接(jiē)收(shōu)与(yǔ)系(xì)统(tǒng) 2 相同的图像(xiàng)和(hé)状(zhuàng)态(tài)输(shū)入(rù)，但(dàn)处(chù)理(lǐ)频(pín)率(lǜ)更(gèng)高(gāo)，以(yǐ)实(shí)现(xiàn)反(fǎn)应(yīng)更(gèng)灵(líng)敏(mǐn)的(de)闭(bì)环(huán)控(kòng)制(zhì)。来(lái)自(zì)系(xì)统(tǒng) 2 的(de)潜(qián)向(xiàng)量(liàng)被(bèi)投(tóu)射(shè)到(dào)系(xì)统(tǒng) 1 的(de) token 空(kōng)间(jiān)，并(bìng)与(yǔ)来(lái)自(zì)系(xì)统(tǒng) 1 视(shì)觉(jué)骨(gǔ)干(gàn)的视觉特征沿序列维度进行串联，从而提供任务条件。

系统 1 以 200hz 的频率输出完整的上半身仿人控制，包括所需的手腕姿势、手指弯曲和外展控制，以及躯干和头部方向目标。他们在动作空间中添加了一个合成的“任务完成百分比”动作，使 Helix 能够预测自己的终止条件，从而更容易地对多个学习行为进行排序。

3.训练

Helix 采用完全端到端训练方式，通过标准回归损耗将原始像素和文本指令映射为连续动作。梯度通过用于调节系统 1 行为的潜在通信向量从系统 1 反向传播到系统 2，从而对两个组件进行联合优化。Helix 无需针对特定任务进行适应性调整；它只需保持单一的训练阶段和单一的神经网络权重集，而无需单独的动作头或每个任务的微调阶段。

在训练过程中，他们会在系统 1 和系统 2 输入之间添加一个时间偏移。该偏移量经过校准，与系统 1 和系统 2 部署推理延迟之间的差距相匹配，确保在训练中准确反映部署过程中的实时控制要求。

4.优化的流推理

Helix 的训练设计可在 Figure 机器人上实现高效的模型并行部署，每个机器人都配备了双低功耗嵌入式 GPU。推理流水线分为系统 2（高级潜规划）和系统 1（低级控制）模型，每个模型都(dōu)在(zài)专(zhuān)用(yòng) GPU 上(shàng)运(yùn)行(xíng)。系(xì)统(tǒng) 1 作(zuò)为(wèi)异(yì)步(bù)后(hòu)台(tái)进(jìn)程(chéng)运(yùn)行(xíng)，消(xiāo)耗(hào)最(zuì)新(xīn)观(guān)测(cè)数(shù)据(jù)（机(jī)载(zài)摄(shè)像(xiàng)头(tóu)和(hé)机(jī)器(qì)人(rén)状(zhuàng)态(tài)）和(hé)自(zì)然(rán)语言指令。它不断更新共享内存中的潜在向量，该向量对高级行为意图进行编码。

系统 1 作为一个独立(lì)的(de)实(shí)时(shí)进(jìn)程(chéng)执(zhí)行(xíng)，维(wéi)持(chí)着(zhe)整(zhěng)个(gè)上(shàng)半(bàn)身(shēn)平(píng)滑(huá)动(dòng)作(zuò)所(suǒ)需(xū)的(de)关键 200Hz 控(kòng)制(zhì)回路。它同时获取最新的观测数据和最新的系统 2 潜在向量。系统 2 和系统 1 推理之间固有的速度差异自然会导致系统 1 以更高的时间分辨率处理机器人的观察结果，从而为反应控制创建更紧密的反馈回路。

这种部署策略有意反映了训练中引入的时间偏移，最大限度地缩小了训练-推理分布差距。异步执行模型允许两个进程以各自的最佳频率运行，允许以最快的单任务模仿学习策略速度运行 Helix。

表现怎么样？

1.精细的 VLA 整个上半身控制(zhì)

Helix 能(néng)以(yǐ) 200Hz 的(de)频(pín)率(lǜ)协(xié)调(diào) 35-DoF 的(de)动(dòng)作(zuò)空(kōng)间(jiān)，控(kòng)制(zhì)从(cóng)单(dān)个(gè)手(shǒu)指(zhǐ)运(yùn)动(dòng)到(dào)末(mò)端(duān)执(zhí)行(xíng)器(qì)轨迹、头部注视和躯干姿势等一切动作。头部和躯干控制带来(lái)了独特的挑战，因为它们的移动会同时改变机器人所能触及的范围和所能看到的范围，从而形成反馈回路，这在历史上曾造成不稳定。

机器人在调整躯干以获得最佳触及范围的同时，还能用头部平稳地跟踪双手，同时保持手指的精确控制以进行抓取。从历史上看，在如此高维的动作空间中实现如此高的精确度，即使是对单个已知任务而言，也是极具挑战性的。研究团队表示，目前还没有任何 VLA 系统能够(gòu)在(zài)保(bǎo)持(chí)跨(kuà)任(rèn)务(wu)和(hé)跨(kuà)对(duì)象(xiàng)通(tōng)用(yòng)能(néng)力(lì)的(de)同(tóng)时(shí)，实(shí)现(xiàn)如(rú)此(cǐ)程(chéng)度的实时协调。

2.零样(yàng)本多机器人(rén)协(xié)调(diào)

他(tā)们(men)在(zài)一(yī)个(gè)极(jí)具(jù)挑(tiāo)战(zhàn)性(xìng)的(de)多(duō)机(jī)器(qì)人(rén)操(cāo)控(kòng)场(chǎng)景(jǐng)中(zhōng)将(jiāng) Helix 推(tuī)向(xiàng)了(le)极(jí)限(xiàn)：两(liǎng)个(gè) Figure 机(jī)器(qì)人(rén)之(zhī)间(jiān)的(de)协(xié)作(zuò)零(líng)样(yàng)本(běn)杂(zá)货(huò)存(cún)储(chǔ)。

结(jié)果(guǒ)显(xiǎn)示(shì)，机(jī)器(qì)人(rén)成(chéng)功(gōng)地(de)操(cāo)纵(zòng)了(le)全新(xīn)的(de)杂(zá)货(huò)——在(zài)训(xun)练(liàn)过(guò)程(chéng)中(zhōng)从(cóng)未(wèi)遇(yù)到(dào)过(guò)的(de)物(wù)品(pǐn)——展(zhǎn)示(shì)了(le)在(zài)不(bù)同(tóng)形(xíng)状(zhuàng)、尺(chǐ)寸(cùn)和(hé)材(cái)料(liào)上(shàng)的(de)强(qiáng)大(dà)泛(fàn)化(huà)能(néng)力(lì)。此(cǐ)外(wài)，两(liǎng)个(gè)机(jī)器(qì)人(rén)使(shǐ)用(yòng)相(xiāng)同(tóng)的(de) Helix 模(mó)型(xíng)权(quán)重(zhòng)进(jìn)行(xíng)操(cāo)作(zuò)，无(wú)需(xū)进(jìn)行(xíng)特(tè)定(dìng)的(de)机(jī)器(qì)人(rén)训(xun)练(liàn)或(huò)明(míng)确(què)的(de)角(jiǎo)色(sè)分(fēn)配(pèi)。它(tā)们(men)通(tōng)过(guò)自(zì)然(rán)语(yǔ)言(yán)提(tí)示(shì)实(shí)现(xiàn)协(xié)调(diào)，例(lì)如(rú)“将(jiāng)一(yī)袋(dài)饼(bǐng)干(gàn)递(dì)给(gěi)你(nǐ)右(yòu)边(biān)的(de)机(jī)器(qì)人(rén)”或(huò)“从(cóng)你(nǐ)左(zuǒ)边(biān)的(de)机(jī)器(qì)人(rén)手(shǒu)中(zhōng)接(jiē)过(guò)一(yī)袋(dài)饼(bǐng)干(gàn)并(bìng)将(jiāng)其(qí)放(fàng)入(rù)打(dǎ)开(kāi)的(de)抽(chōu)屉(ti)”。这(zhè)标(biāo)志(zhì)着(zhe)首(shǒu)次(cì)展(zhǎn)示(shì)了(le)多(duō)个(gè)机(jī)器(qì)人(rén)使(shǐ)用(yòng) VLA 进(jìn)行(xíng)灵(líng)活(huó)、扩(kuò)展(zhǎn)的(de)协(xié)作(zuò)操(cāo)纵(zòng)，特(tè)别(bié)是(shì)在(zài)成(chéng)功(gōng)处(chù)理(lǐ)全新(xīn)物(wù)体(tǐ)方(fāng)面(miàn)意(yì)义(yì)重(zhòng)大(dà)。

3.智能涌现——“捡起任何东西”

他们(men)发(fā)现，配备 Helix 的 Figure 机器人只需接收“拿起 [X]”的指令，就能拿起几乎任何小型家用物品。在系统测试中，机器人成功处理了杂乱物品中的数千件新奇物品——从玻璃器皿和玩具到工具和衣物——而无需任何事先演示或定制编程。

尤其值得注意的是，Helix 是如何在互联网规模的语言理解和精确的机器人控制之间架起桥梁的。例如，当提示“拿起沙漠中的物品”时，Helix 不仅能识别出符合这一抽象概念的玩具仙人掌(zhǎng)，还(hái)能(néng)选(xuǎn)择(zé)最近的手，并执行精确的运动指令，牢牢地抓住它。

这种通用的“从语言到行动”的抓取能力为在非结构化环境中部署人形机器人开辟了令人兴奋的新可能性。

“仅仅触及了可能的表面”

在这项研究中(zhōng)，Helix 展现出了训练效率高且仅需要单一权重集的特点。

在训练效率方面，Helix 以极少的资源实现了强大的对象泛化能力。研究团队总共使用了约 500 小时的高质量监督数据对 Helix 进行训练，其规模仅为之前收集的 VLA 数据集的一小部分（<5%），并且不依赖于多机器人-具身收集或多阶段训练。他们注意到，这种收集规模与现代的单任务模仿学习数据集更相近。尽管对数据的要求相对较低，但 Helix 仍能扩展到更具挑战性的上半身人形控制动作空间(jiān)，并(bìng)提(tí)供(gōng)高(gāo)速(sù)率(lǜ)、高(gāo)维(wéi)度(dù)的(de)输(shū)出(chū)。

同(tóng)时(shí)，Helix 只(zhǐ)需(xū)一(yī)个(gè)统(tǒng)一(yī)的(de)模(mó)型(xíng)，就(jiù)能(néng)在(zài)不(bù)同(tóng)任(rèn)务(wu)中(zhōng)实(shí)现(xiàn)强(qiáng)大(dà)的(de)性(xìng)能(néng)。只(zhǐ)需(xū)使(shǐ)用(yòng)一(yī)组(zǔ)神(shén)经(jīng)网(wǎng)络(luò)权(quán)重(zhòng)（系(xì)统(tǒng) 2 为(wèi) 7B，系(xì)统(tǒng) 1 为(wèi) 8000 万(wàn)），Helix 就(jiù)能(néng)在(zài)各(gè)种(zhǒng)容(róng)器中拾取和(hé)放(fàng)置(zhì)物(wù)品(pǐn)，操(cāo)作(zuò)抽(chōu)屉(ti)和(hé)冰(bīng)箱(xiāng)，协(xié)调(diào)灵(líng)巧(qiǎo)的(de)多(duō)机(jī)器(qì)人(rén)交(jiāo)接(jiē)，并操控数千种新奇物品。

研究团队表示，虽然这些早期成果确实令人兴奋，但这仅仅触及了可能的表面。他们急切地想知道，当他们将 Helix 的规模扩大 1000 倍甚至更多时会发生什么。

整理：学术君