(来源:机器之心)
机器之心报道
编辑:Panda
还记得《黑客帝国》里 Neo 通过脑机接口瞬间学会功夫的场景吗?
现在,机器人离这一天也不远了。想象一下,你只需在电脑上输入一句提示词:「一个人在打太极」,AI 视频模型(比如 Wan2.1 或 Sora)立刻生成一段视频,而旁边的机器人看完这段视频,竟然就能零样本(Zero-shot)地把这套动作在物理世界中完美复现出来!
没错,这就是来自伯克利、纽约大学和约翰・开普勒林茨大学的一项最新论文想要实现的未来。
研究人员提出了一种名为 GenMimic 的新方法,让机器人拥有了「模仿大师」的技能,甚至即便 AI 生成的视频里人物动作有些变形、甚至出现「鬼畜」般的噪声,机器人也能去伪存真,提取出核心动作逻辑,稳稳当当地在现实中动起来。
论文标题:From Generated Human Videos to Physically Plausible Robot Trajectories
论文地址:https://arxiv.org/abs/2512.05094v1
项目地址:https://genmimic.github.io/
已经离开 Meta、开始创业的图灵奖得主 Yann LeCun 也是该研究的四位共同导师之一。有趣的是,在这篇论文中,Yann LeCun 的所属机构已经没有了 Meta。这应该是他离开 Meta 后发布的第一篇论文?不过,其所属机构也尚未标注其新创业公司,仅有纽约大学。
该论文有四位共一作者:James Ni、Zekai Wang、Wei Lin、Amir Bar。其研究的核心问题是机器人领域一个关键问题:人形机器人如何能够零样本(zero-shot)地执行生成视频中的人类动作?
这项研究有四大贡献:
提出了首个使人形机器人能够执行由视频生成模型生成的动作的通用框架。
提出了 GenMimic,这是一种新的强化学习策略,使用对称正则化和选择性加权的 3D 关键点奖励进行训练,尽管仅在现有的动作捕捉数据上训练,却能泛化到充满噪声的合成视频。
利用 Wan2.1 和 Cosmos-Predict2 整理了合成人类动作数据集 GenMimicBench,建立了评估零样本泛化和策略鲁棒性的可扩展基准。
在仿真和真实世界实验中广泛验证了新提出的方法。在仿真中,该团队提供了详细的消融实验,并展示了相比强基线模型的显著改进。他们还进一步在宇树 G1 机器人上确认了新方法的可行性,展示了连贯且物理稳定的动作。
下面我们更详细地了解一下这项研究成果。
GenMimicBench 数据集
为了评估人形机器人控制策略在不同视觉和动作分布下的零样本泛化能力,该团队引入了 GenMimicBench,这是一个包含 428 个生成视频的合成人类动作数据集。
该数据集是使用两个最先进的视频生成模型 Wan2.1-VACE-14B 和 Cosmos-Predict2-14BSample-GR00T-Dreams-GR1 创建的。
如图 2 所示,每个序列都是从初始帧和指定预期动作的文本提示生成的,从而实现了主体身份、视角和动作的系统性变化。
总体而言,GenMimicBench 涵盖了广泛的主体、环境和动作类型,从简单的手势到多步骤组合动作及物体交互行为。
Wan2.1 视频:受控室内场景。 GenMimicBench 的很大一部分是使用 Wan2.1 从 NTU RGB+D 帧生成的。这些片段提供了清晰、结构化的室内环境,并具有同步的前视、左视和右视摄像机视角。该团队包括了五名具有不同人口统计学特征、身体比例和着装风格的主体,确保外观的多样性,同时保持场景几何的一致性。动作涵盖四个结构化类别。这产生了 217 个多视角室内视频,捕捉了形态、视角和动作组合的细微变化。
Cosmos-Predict2 视频:网络风格场景。 为了以更大的多样性补充这些受控场景,该团队还使用 Cosmos-Predict2 生成了以 PennAction 帧为条件的视频。这些片段反映了自然场景下 YouTube 视频的特征:杂乱的场景、多变的摄像机运动、不均匀的光照和现实世界的物体布局。该子集包括 211 个视频,主要由八个不同的主体执行简单的手势(例如,摸头、竖大拇指)以及一系列物体交互行为,如开门、举书或哑铃,以及操作日常家居用品。这一部分使策略暴露于受控数据集中所缺乏的现实复杂性,为评估在自然环境中的鲁棒性提供了一个具有挑战性的测试平台。
总计,GenMimicBench 提供了一个包含 428 个高方差合成动作序列的统一集合,涵盖了结构化的室内场景和多样化的现实世界视频语境。
通过将受控动作与多样化的自然人类动作相结合,GenMimicBench 建立了一个全面的基准,可用于评估在视觉、形态和动作分布偏移下的人形机器人策略性能。该数据集专门设计用于压力测试鲁棒性,使其非常适合评估依赖于从生成视频中获取的噪声或不完美动作重建的策略。
从生成的视频到人形机器人动作
为了解决从生成视频中执行人形机器人动作的挑战,该团队提出了一个基于 4D 重建的两阶段流程,并提出了一个新的 GenMimic 跟踪策略。图 3 展示了方法概况。
两阶段流程
第一阶段:从像素到 4D 人形机器人重建。
给定一个生成的输入 RGB 视频,该团队使用最先进的人类重建模型来检测和提取逐帧的全局姿态和 SMPL 参数。由于形态不匹配,生成的 SMPL 轨迹无法直接用于人形机器人。因此,该团队选择将 SMPL 轨迹重定向到机器人的关节空间,该空间结合逐帧的全局姿态可恢复机器人空间中的全局 3D 关键点。
第二阶段:从 4D 人形机器人到动作。
为了正确地泛化到未见过的人类动作,该团队的策略必须对输入中的变化和噪声具有鲁棒性。
为了实现这一点,该团队特意选择 3D 关键点而非关节角度,因为关键点对变化更具鲁棒性,且噪声在这种表征中更容易被观察到。
给定这些关键点和本体感知信息,该团队的跟踪策略输出物理上可实现的期望关节角度。这些期望关节角度被比例-微分 (PD) 控制器使用,输出可执行的力矩给机器人。
GenMimic 策略
如图 3 所示,从视频生成的人类动作包含噪声和形态不匹配,这使得它们偏离了训练数据的分布。
该团队表明,添加加权关键点跟踪奖励和对称增强提供了足够的鲁棒性来解决这些挑战。
加权跟踪 (Weighted Tracking)
某些关键点(例如对应于末端执行器的关键点)在任务执行和物理稳定性方面本质上比躯干或非接触关键点更为关键。因此,该团队将跟踪奖励设计为使用逐关键点误差的加权组合:
这个公式使得策略能够选择性地关注目标中最可靠和与任务最相关的方面。对于生成视频,偏向末端执行器并远离不准确的下半身会产生稳定的模仿效果。
对称损失 (Symmetry Loss)
人体表现出固有的双侧对称性,其中左侧和右侧近似为镜像。
该团队假设,由于这种对称性作为一种强大的物理归纳偏置,一个显式学习并利用左右关键点之间对称相关性的策略,可以对生成视频中的逐关键点噪声实现更强的鲁棒性。
为了实现这一点,该团队在标准 PPO 训练目标中加入了一个辅助对称损失 L_SYM,并带有权重系数 λ_SYM:
策略学习的细节(包括训练数据、奖励和域随机化)请参阅原论文。
实验表现
该团队在 GenMimicBench 和真实的 23-DoF 宇树 G1 人形机器人上进行了实验。实现细节方面,训练在 IsaacGym 中进行,样本量超过 15 亿,使用了四个 NVIDIA RTX 4090 GPU。部署使用单个 NVIDIA 4060 移动版 GPU。更多细节请访问原论文。
仿真实验
该团队在 GenMimicBench 数据集上对比了该团队的方法与强基线模型。结果见表 1。
如表 1 所示,GenMimic 优于现有基线。GenMimic 学生模型获得了比 GMT 和 TWIST 更高的 SR 和 MPKPE-NT,而 GenMimic 教师模型获得了比 BeyondMimic 和 TWIST 更高的 SR、MPKPE 和 MPKPE-NT。所有 unprivileged 策略都表现出较高的全局误差,突显了从生成视频中进行零样本模仿的挑战。
真实世界实验
该团队成功地将策略部署在 23-DoF 的 G1 人形机器人上,展示了对生成视频中人类动作的物理复现。
该团队总共推演了 43 个动作,并在表 2 中报告了视觉成功率 (VSR)。与仅衡量偏离基准真值的定量仿真指标不同,VSR 评估执行的动作在视觉上是否与生成视频相似。该团队将任何过度的跌跌撞撞或无法在视觉上跟随关键关键点(如手或脚)的情况视为失败。
该团队的策略成功复现了广泛的上半身动作,包括挥手、指向、伸展及其序列组合。将这些动作与下半身运动组合会显著增加难度。对于步进组合,策略能可靠地跟随上半身动作,但无法一致地完成迈步或抬腿。对于转身组合,策略能可靠地达到期望的方向,但经常会跌跌撞撞。
该团队猜想,这些挑战源于不准确或物理上不可行的动作线索,这个问题或可通过向 3D 目标关键点引入加权噪声来解决。
下面展示了一些模仿示例。
该团队也执行了消融实验,详见原论文。