动作捕捉方面的优势
- 2022-11-21
- x970762
- 浏览量:6130
- 分享次数:251
从《星球大战》到《快乐大脚》,很多热门电影都包含了动作捕捉技术实现的场景,通过视频记录物体或人的移动。此外,这种跟踪涉及物理、几何和感知之间的复杂相互作用。它的应用超越了好莱坞,延伸到军事、体育训练、医疗、计算机视觉和机器人等领域,使工程师能够理解和模拟真实环境中的动作。
由于这可能是一个复杂而昂贵的过程,它通常需要在物体或人身上放置标记,并记录动作序列——研究人员正在试图将负担转移到神经网络上,神经网络可以从简单的视频中获取数据,并在模型中重现。物理模拟和渲染方面的工作有望使其得到更广泛的应用,因为它可以从图像中描述真实、连续和动态的运动,并在2D渲染和三维场景之间来回转换。然而,要做到这一点,目前的技术需要对环境条件、行动发生的地点以及染色装置的选择有准确的了解,这两者通常都是。不可用。
现在,IBM麻省理工学院的一组研究人员开发了一种训练神经网络管道来避免这一问题,并能够推断环境和状态的行为发生,感兴趣的人或物体的物理特征(系统)及其控制参数。经过测试,该技术在模拟不同环境条件下的四种不同类型的动态交互刚体和变形体物理系统方面优于其他方法。此外,这种方法允许模仿学习-从视频预测和再现真实世界的轨迹,飞行四旋翼飞行器。
“先进的研究问题是如何从一个视频重建一个数字双电源系统,”杜导博士说。“21岁博士后,电气工程与计算机科学(电学)、计算机科学与人工智能(power)实验室成员,研究团队成员。为了做到这一点,杜说:“我们需要忽略视频剪辑在进化和染色方面的差异,并试图抓住动态系统或动态运动的核心信息。
通过捕捉人、机器人或动作捕捉软件的视频来推断动态运动更容易获得信息,但也带来了新的挑战。“图像或视频(以及它们如何播放和染色)在很大程度上取决于照明条件、背景信息、纹理信息和环境材料信息,这些信息在现实世界中不一定是可测量的,”杜说。没有这种染色配置信息或使用哪种染色设备的知识,目前难以收集动态信息和预测视频对象的行为。即使已知染色机,目前的神经网络方法仍然需要大量的训练数据集。然而,在他们的新方法中,这可能成为一个有争议的问题。“如果你拍摄豹子在早上和晚上奔跑的视频,当然,你会得到视觉上不同的视频片段,因为光线条件非常不同。但你真正关心的是动态运动:豹子的关节角度——而不是它们看起来是亮还是暗,”杜说。
为了解决呈现域和图像之间的差异问题,该团队开发了一个包含神经网络的管道系统,称为“呈现不变状态预测(RISP)”网络。RISP将图像(像素)的差异转化为系统状态——即动作环境——的差异,这使得他们的方法对于呈现配置具有普适性和不可知性。用随机染色参数和状态来训练RISP,这些参数和状态被输入到可微分染色器中,可微分染色器是测量像素对染色配置(例如光或材料颜色)的敏感度的渲染器。这将根据已知的地面真实参数生成一组不同的图像和视频,然后将允许RISP逆转这一过程,并根据输入的视频预测环境状态。该团队还最小化了RISP的进化梯度,使其预测对进化配置的变化不那么敏感,它学会了忘记视觉外观,专注于学习动态。这是通过差异染色装置实现的。
该团队测试了四个模拟系统:四旋翼飞行器(没有任何物理接触的刚体飞行)、立方体(与环境相互作用的刚体,就像死亡)、新手和杆(可变形的物体可以像蛇一样)。这些任务包括从图像中估计系统的状态,从视频中识别系统参数和运动控制信号,并从目标图像中找到引导系统达到所需状态的控制信号。此外,他们创建了一个基线和一个甲骨文,以比较这些系统中的新RISP过程与类似的方法,例如,缺乏渲染梯度损失,训练神经网络没有任何损失,或完全缺乏RISP神经网络。该团队还研究了梯度损失如何随着时间的推移影响状态预测模型的性能。最后,研究人员部署了他们的RISP系统,并从视频中推断出真实世界中具有复杂动力学的四旋翼飞行器的运动。他们将其性能与其他技术进行了比较,其他技术缺少丢失的功能,使用像素差异,或者包括手动调整染料注释器配置的技术。
在几乎所有的实验中,RISP程序都优于现有的类似或先进的方法,模仿或再现了所需的参数或运动,并被证明是当前运动捕捉方法的数据高效和可扩展的竞争对手。
在这项工作中,研究人员做了两个重要的假设:关于动作捕捉设备的信息是已知的,如它的位置和设置,以及控制被跟踪的对象或人的几何和物理。未来的工作计划将解决这个问题。
“在我看来,我们在这里解决的最大问题是在没有非常昂贵的设备的情况下从一个领域到另一个领域重建信息,”马说。甘补充说,这种方法应该是“正确的目的。[在虚拟环境中重建物理世界的应用程序,如元宇宙,非常有用]
“这基本上是一个日常可用的解决方案,简洁而简单,用于跨域重建或逆动力学问题,”马说。