PhysCap: Physically Plausible Monocular 3D Motion

原文：https://vcai.mpi-inf.mpg.de/projects/PhysCap/data/physcap.pdf

背景：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DVXnwEin-1644700502137)(/Users/kay/Library/Application Support/typora-user-images/image-20220211163444022.png)]

图1、PhysCap 以物理上合理的方式从单眼视频中实时捕获全局 3D 人体运动，无需使用标记。（左：）立定跳远视频 [Peng et al. 2018]和我们的3D重建。由于其基于基于物理的动力学公式，我们的算法恢复了在 2D 中观察到的具有挑战性的 3D 人体运动，同时显着减少了诸如脚滑动、脚地板穿透、不自然的身体倾斜和沿着深度通道的抖动等困扰早期单目镜的伪影姿态估计方法。（右：）由于 PhysCap 的输出是环境感知的，并且返回的根位置是全局的，所以它直接适用于虚拟角色动画，无需任何进一步的后期处理。 3D 角色取自 [Adobe 2020]。有关进一步的结果和可视化，请参阅我们的补充视频。

单台彩色摄像机的无标记3D人体动作捕捉技术已经取得了重大进展。然而，这是一个非常具有挑战性和严重的不适定问题。因此，即使是最精确的最先进的方法也有很大的局限性。与多视图或基于标记的运动捕捉相比，基于单个关节或骨骼的纯运动学公式，以及在最先进的方法中频繁的逐帧重建极大地限制了3D精度和时间稳定性。此外，捕捉到的3D姿势通常在物理上是不正确的，在生物力学上是不合理的，或者表现出不合理的环境交互作用(地板穿透、脚滑、不自然的身体倾斜和深度的强烈移动)，这在计算机图形学的任何用例中都是有问题的。

因此，我们提出了 PhysCap，这是第一个使用单色相机以 25 fps 进行物理上合理、实时和无标记的人类 3D 运动捕捉的算法。我们的算法首先以纯粹的运动学方式捕获 3D 人体姿势。为此，CNN 推断 2D 和 3D 关节位置，随后，逆运动学步骤找到时空相干关节角度和全局 3D 姿势。接下来，这些运动学重建被用作基于实时物理的姿势优化器中的约束，该优化器考虑了环境约束（例如，碰撞处理和地板放置）、重力和人体姿势的生物物理合理性。我们的方法采用地面反作用力和残余力的组合来实现合理的根部控制，并使用经过训练的神经网络来检测图像中的脚部接触事件。我们的方法从实时视频和一般场景中捕获物理上合理且时间稳定的全局 3D 人体运动，没有物理上不合理的姿势、地板穿透或滑脚。PhysCap 在已建立的姿势基准上实现了最先进的准确性，我们提出了新的指标来证明改进的物理合理性和时间稳定性。

1.introduction

来自单目 RGB 图像的 3D 人体姿态估计是一个非常活跃的研究领域。许多应用程序推动了进步，这些应用程序对可靠、实时和易于使用的姿势估计的需求日益增加。在这里，角色动画、VR 和 AR、远程呈现或人机交互中的应用只是对图形具有高度重要性的几个例子。

人体骨骼的单目和无标记 3D 捕获是一个极具挑战性且严重不足的问题 [Kovalenko et al. 2019; Martinez et al. 2017; Mehta et al. 2017b; Pavlakos et al. 2018; Wandt and Rosenhahn 2019]。因此，即使是最好的最先进的算法也表现出明显的局限性。大多数方法使用单独预测的关节以运动学方式捕获姿势，但不会产生连贯运动学骨架的平滑关节角度。许多方法执行每帧姿势估计时具有显着的时间抖动，并且重建通常在根相关而不是全局 3D 空间中。即使预测了全局姿势，来自相机的深度预测通常也是不稳定的。此外，与环境的交互通常被完全忽略，这会导致严重碰撞违规的姿势，例如，地板穿透或真实不会发生的的脚滑动和不正确的脚放置。已建立的运动学公式也没有明确考虑重建姿势的生物力学合理性，从而产生平衡不当、身体倾斜不准确或时间不稳定的重建姿势。

我们注意到，所有这些人工制品在上述计算机图形应用程序中尤其成问题，在这些应用程序中，从所有虚拟视点、全局 3D 和物理环境中对角色进行时间稳定和视觉上合理的运动控制是至关重要的。此外，我们注意到在广泛使用的 3D 姿态估计基准中建立的指标，例如平均每个关节位置误差 (MPJPE) 或正确关键点的 3D 百分比 (3D-PCK)，这些指标甚至通常在 3D 重新缩放或 Procrustes 对齐之后进行评估, 不要充分测量这些人工制品。事实上，我们表明（参见第 4 节和补充视频）即使是在这些基准测试中表现最好的方法也会产生大量时间噪声和不稳定深度预测的结果，经常违反环境约束，并且经常忽视物理和解剖姿势的合理性。因此，单目 3D 人体姿态估计方法与suit-based或marked-based的运动捕捉系统的黄金标准精度和运动质量之间仍然存在显着差距，不幸的是，这些系统价格昂贵、使用复杂且不适合许多上述需要户外捕获的应用程序。

因此，我们提出了 PhysCap——一种易于使用的单目全局 3D 人体运动捕捉的新方法，它显着缩小了这一差距并大大减少了上述伪影，参见图 1 的概述。据我们所知，PhysCap 是第一个共同拥有以下所有属性的方法：它是全自动，无标记，在一般场景中工作，实时运行，捕捉时空连贯的骨架姿势和最先进的时间稳定性和平滑度的全局 3D 姿势序列。它展示了最先进的姿势和位置准确性，并捕捉到正确遵守物理和环境约束的物理和解剖学上合理的姿势。为此，我们重新思考并以新的方式汇集了基于运动学的单目姿态估计和基于物理的人体角色动画的想法。

我们算法的第一阶段类似于 [Mehta et al. 2017b] 并以纯粹的运动学、与物理无关的方式估计 3D 身体姿势。卷积神经网络 (CNN) 从输入视频中推断出组合的 2D 和 3D 关节位置，然后在时空逆运动学中对其进行细化，以产生对骨骼关节角度和全局 3D 姿势的首次估计。在第二阶段，每帧都预测脚的接触和运动状态。因此，我们采用了一种新的 CNN，它从图像中估计的 2D 关键点检测脚跟和前脚在地面上的位置，并将观察到的姿势分类为静止或非静止。在第三阶段，最终物理上合理的 3D 骨骼关节角度和姿势序列是实时计算的。该阶段使用由带有浮动底座的运动链表示的扭矩控制的基于物理的特征来规范人体运动。为此，计算运动链的每个自由度 (DoF) 的最佳控制力，以便尽可能接近地再现第一阶段的运动姿态估计 - 2D 和 3D。优化确保满足重力、碰撞、足部放置以及物理姿势合理性（例如平衡）等物理约束。总而言之，我们在本文中的贡献是：

第一种，据我们所知，无标记单目 3D 人体运动捕捉方法基于一个基于物理的显式动力学模型，该模型实时运行并捕捉全局的、物理上合理的骨骼运动（第 4 节）。
CNN，用于从图像中检测足部接触和运动状态（第 4.2 节）。
一种新的姿势优化框架，其人体参数是由带有浮动底座和 PD 关节控制器组成的扭矩控制模拟角色,(A new pose optimisation framework with a human parametrised by a torque-controlled simulated character with a floating base and PD joint controllers;)；它再现了运动学捕获的 2D/3D 姿势，同时考虑了地面反作用力、脚接触状态和碰撞响应等物理约束（第 4.3 节）。
在捕获的运动中评估帧间抖动和地板穿透的定量指标(第5.3.1节)。
与相关方法相比，物理上合理的结果显著减少人为因素，如帧对帧抖动、不正确的倾斜、脚滑动和地板穿透(由用户研究和指标证实)，以及最先进的2D和3D精度和时间稳定性(第5节)。

我们通过对多个数据集（包括新录制的视频）的实验评估，针对单目 3D 人体运动捕捉和姿势估计的多种最先进的方法，展示了我们方法的优势。

2.related work

我们的方法主要涉及两类不同的方法——（无标记）彩色图像的 3D 人体动作捕捉和基于物理的角色动画。在下文中，我们回顾相关类型的方法，重点关注最密切相关的工作。

从 RGB 进行 3D 人体运动捕捉的多视图方法。从多视图图像中重建人体得到了很好的研究。多视图运动捕捉方法跟踪关节骨骼运动，通常通过将关节模板拟合到图像。[Bo and Sminchisescu 2010; Brox et al. 2010; Elhayek et al. 2016, 2014; Gall et al. 2010; Stoll et al. 2011; Wang et al. 2018; Zhang et al. 2020]。

其他方法，有时称为性能捕获方法，还捕获非刚性表面变形，例如服装 [Cagniart et al. 2010; Starck and Hilton 2007; Vlasic et al. 2009; Waschbüsch et al. 2005]。它们通常将某种形式的模板模型拟合到多视图图像 [Bradley et al. 2008; De Aguiar et al. 2008; Martin-Brualla et al. 2018]，它通常也有一个潜在的运动学骨架[Gall et al. 2009; Liu et al. 2011; Vlasic et al. 2008; Wu et al. 2012]。多视图方法已经展示了令人信服的结果，并且一些方法可以实现自由视点视频。但是，它们需要昂贵的多摄像机设置和经常受控的演播室环境。

基于RGB的单目3D人体运动捕捉和姿态估计。 基于单一颜色或灰度图像的无标记三维人体姿态估计(仅重建三维关节位置)和运动捕捉(重建整体三维人体运动和连贯骨骼的关节角度)是高度不适定的问题。近年来，单目3D人体姿态估计技术已经取得了很大进展，这主要得益于训练好的CNN。有些方法是将二维关键点预测与身体深度回归相结合，或者在训练后的CNN中结合三维关节位置概率回归来估计三维姿势。提升方法从检测到的2D关键点预测关节深度。其他cnn直接回归3D关节位置。另一类方法将基于cnn的关键点检测与参数化身体模型的约束相结合，例如，在训练过程中使用再投影损耗。有些作品采用了单目多人三维姿态估计和运动捕捉，或者在骨骼运动的基础上从单目视频中估计非刚性变形的人体表面几何。除了灰度图像外，[Xu等人2020]使用来自事件摄像机的异步事件流作为输入。后两个方向是互补的，但与我们的工作正交。

这个领域中的大多数方法都将3D姿态估计为人体关节的相对根的3D位置[Kovalenko et al. 2019; Martinez et al. 2017; Moreno-Noguer 2017; Pavlakos et al. 2018; Wandt and Rosenhahn 2019]。这对于图形应用来说是有问题的，因为时间抖动、骨骼长度变化以及通常无法恢复的全局3D姿势都使得虚拟角色的动画制作困难。其他单目方法被训练来估计骨骼的参数或关节角度[Zhou等人2016]或参数模型[Kanazawa等人,2018]。[Mehta等人20，20,2017b]在基于cnn的2D/3D推理的基础上，利用逆运动学来实时获取全局3D中相干骨架的关节角度。

上述所有方法的结果往往违反物理定律，表现出脚地板穿透、脚滑动、不平衡或难以置信的姿势漂浮在空中，以及明显的抖动。一些方法试图通过利用时间信息来减少抖动[Kanazawa等人，2019;Kocabas等人，2020]，例如，通过估计平滑的多帧场景轨迹[Peng等人，2018]。[Zou et al. 2020]试图通过地面接触限制来减少足部滑动。[Zanfir等人，2018]在进行多人位姿估计时，联合推理地面平面和容积占用率。[Monszpart等人2019]联合从单目交互视频中推断出粗场景布局和人体姿态，[Hassan等人2019]使用场景几何的预扫描3D模型来约束运动学姿态优化。为了克服上述的局限性，没有人像我们一样，在明确的基于物理的动力学模型的基础上，在实时的情况下，制定单目运动捕捉。

基于物理的角色动画。基于基于物理控制器的角色动画已经被研究了很多年[Barzel等人，1996;2005年;Wrotek等人，2006]，并仍然是一个活跃的研究领域，[Andrews等人，2016;Bergamin等人2019年;Levine和Popović 2012;郑志强，杨志强。2013。[Levine和Popović 2012]采用了一种实时近似参考运动轨迹的准物理模拟。它们可以通过在根部施加一个直接驱动来遵循非物理参考运动。通过使用比例导数(PD)控制器和计算最优力矩和接触力，[Zheng和Yamane 2013]让角色在保持平衡的同时遵循参考动作。[Liu et al. 2010]提出了一种基于物理的角色动画的概率算法。由于该方法的随机性和固有的随机性，其结果是有变化的，但每个序列需要多分钟的运行时间。Andrews等人[2016]结合基于标记的动作捕捉和安装在身体上的传感器，采用刚性动力学来驱动虚拟角色。这个动画设置与机器人的运动转移有关。[Nakaoka等人，2007]将多摄像机标记系统捕捉到的人体运动转移到机器人上，重点是腿部运动。[Zhang et al. 2014]利用深度相机和可穿戴压力传感器，并应用基于物理的运动优化。我们从这些作品中获得灵感，在我们的设置中，我们必须以物理正确的方式捕获实时全球3D人体运动的图像，使用中间姿态重建结果，显示出显著的人工制品和违反物理定律。因此，PhysCap将基于初始运动学的位姿重构与基于PD控制器的物理位姿优化相结合。

最近的一些方法将深度强化学习应用于虚拟角色动画控制。peng等人[2018]提出了一种强化学习方法，用于传递单眼视频中观察到的动态人体表演。他们首先使用最近的单目人体姿态估计技术来估计平滑的运动轨迹，然后训练一个虚拟角色的模拟控制策略。[Bergamin等人2019]利用几分钟的动作捕捉数据训练虚拟角色的控制器，这些数据涵盖了预期的各种动作和姿势。经过训练后，虚拟角色可以实时跟随用户的方向指令，同时对碰撞障碍具有鲁棒性。其他研究[Lee等人。2019]将肌肉驱动模型与深度强化学习相结合。[Jiang等人2019]在肌肉驱动空间中表达动画目标。为特定的运动类学习动画控制器的工作是鼓舞人心的，但不同于基于实时物理的一般运动的动作捕捉。

**物理上合理的的单目3D人体动作捕捉。**目前，使用基于明确物理约束的单目3D人体运动捕捉方面的工作很少[Li et al. 2019;Vondrak等人，2012年;柴伟2010;Zell et al. 2017]。[Wei and Chai 2010]利用物理约束，从未标定的单目视频中捕捉3D人体姿势。他们的方法需要用户手动输入视频的每一帧。相比之下，我们的方法是自动的、实时运行的，并根据我们的环境使用不同的基于物理的姿势优化公式。[Vondrak等人，2012]从视频中捕获双足控制器。它们的控制器对摄动具有鲁棒性，并且适用于各种运动。然而，与我们的PhysCap不同，生成的运动通常看起来不自然，而且他们的方法不能实时运行。[Zell等人2017]通过使用数据驱动的方法，仅从图像中捕捉特定类别的运动(如举重和行走)的姿势和内部身体力量，而不是使用显式的前向动力学方法来处理大范围的运动，如我们的。

我们的PhysCap与Li等人[2019]基于刚体动力学的单目人体姿态估计最相似。Li等人从基于物理约束的输入视频中估算出3D位姿、接触状态和力。然而，他们的方法和我们的方法有很大的不同。虽然Li等人关注的是人与物的互动，但我们关注的是各种一般的运动，包括复杂的杂技动作，如无物体的后翻。他们的方法不是实时运行的，需要对图像进行手动标注来训练接触状态估计网络。相比之下，我们利用了基于PD控制器的逆动力学跟踪，从而实现了物理上似是而非的、平滑而自然的骨骼姿态和实时的根运动捕捉。此外，我们的接触状态估计网络依赖于半自动生成的注释。这使得我们的架构能够在大型数据集上进行训练，从而提高了通用性。没有先前的方法回顾类别物理上似是而非的单目三维人体运动捕捉结合了我们的算法的能力，以捕获类似质量和物理上合理的实时全局三维人体姿势。

3.BODY MODEL AND PRELIMINARIES

PhysCap的输入是一个二维图像序列，其中T为总帧数，t为帧索引。我们假设一个透视相机模型，并且在追踪开始之前校准相机和地面位置。我们的方法输出物理上可信的实时3D运动捕捉结果 (其中𝑚是自由度的数量)，它遵循图像观察，以及基于物理的姿势和环境约束。对于我们的人体模型，m = 43。关节角用欧拉角参数化。我们的特性的质量分布是按照[Liu et al. 2010]计算的。我们的角色模型有一个由37个关节和链接组成的骨架。一个链接通过一个碰撞指标(collision proxy)来定义身体部分的体积范围。在基于物理的姿势优化过程中，前脚和脚跟的连接，分别位于我们角色的关节中心(见图2)，用于检测脚与地板的碰撞。

在我们的算法中，我们通过组合向量表示角色的姿势[Featherstone 2014]。q的前三个条目包含笛卡尔坐标中的全局3D根位置，接下来的三个条目编码根的方向，其余的条目是关节角度。在求解基于物理的运动捕捉结果时，基于物理的角色的运动将由与重力、科里奥利力和向心力相互作用的力向量控制。我们角色的根不是固定的，可以在环境中全局移动，这通常被称为浮动基础系统。设q的速度和加速度为。利用有限差分法，之间的关系可表示为：

其中𝑖为模拟步长指数，𝜙= 0.01为仿真步长。（where 𝑖 represents the simulation step index and 𝜙 = 0.01 is the simulation step size）

对于物理上可行的运动，和的向量力𝝉必须满足运动方程[Featherstone 2014]:

其中，M为由系统惯性矩组成的关节空间惯性矩阵。它是使用复合刚体算法计算的[Featherstone 2014]。是将外力与关节坐标联系起来的接触雅可比矩阵，表示施加接触力的连杆个数。将接触力转换为线性力和力矩[Zheng and Yamane 2013]。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zOkzrsuK-1644700502138)(/Users/kay/Library/Application Support/typora-user-images/image-20220212044926842.png)]

图3所示。我们的流程概述。在阶段I中，3D位姿估计网络接受RGB图像作为输入，返回2D关节关键点和全局3D位姿，即运动学骨架的平移根、方向根和关节角。在第二阶段，馈送到接触和运动状态检测网络。第二阶段返回脚跟和前脚的接触状态，以及一个标签，表示中的受试者是否静止。在阶段III中，和用于根据物理定律迭代更新角色姿态。经过n次位姿更新迭代，我们得到了最终的3D位姿。注意，阶段III中的橙色箭头表示在每次迭代中循环中重复的步骤。在第三阶段开始时，运动学的姿态修正只执行一次。

通常，在浮基系统中，𝝉 的前6个对应于根运动的条目被设置为0，用于人形角色控制。这反映了人类并不是通过作用于根的肌肉直接控制根的平移和定位，而是通过身体的其他关节和肌肉间接控制根的平移和定位。然而，在我们的例子中，我们最终物理上可信的结果应该尽可能重现的运动学姿态(见第4节)，是由单目图像序列估计出来的(见图3中的阶段I)，该序列包含物理上不可信的伪影。解决关节力矩控制，盲目地让角色跟随，会让角色很快摔倒。因此，我们将𝝉的前六个条目保留在我们的公式中，从而可以通过额外的外力直接控制根的位置和方向。这使得最终的角色运动能够与PhysCap第一阶段估计的全局根轨迹保持一致，而不会摔倒。(Solving for joint torque controls that blindly make the character follow, would make the character quickly fall down. Hence, we keep the first six entries of 𝝉 in our formulation and can thus directly control the root position and orientation with an additional external force. This enables the final character motion to keep up with the global root trajectory estimated in the first stage of PhysCap, without falling down.)

4.METHOD

我们的PhysCap方法包括三个阶段，见图3概述。第一阶段进行运动学姿态估计。这包括使用CNN对每个身体关节进行2D热图和3D定位图回归，然后是基于模型的时空姿态优化步骤(4.1节)。这个阶段返回每一个图像的三维骨骼姿态关节角和2D关节关键点;s为二维关节关键点个数。如前所述，这种初始运动学重建容易产生物理上不合情理的影响，如足底穿透、足滑、解剖上不合情理的身体倾斜和时间抖动，沿着深度维度尤其明显。

第二阶段进行足部接触和运动状态检测，使用2D关节检测将迄今为止重构的姿势分为静止和非静止，并存储在一个二进制标志中。它还估计二元脚-地板接触标志，即，为脚趾和脚跟的双脚，结果是四个二元标志(第4.2节)。这一阶段输出组合状态向量。

PhysCap的第三阶段也是最后一个阶段是物理上可行的全局3D姿态估计(第4.3节)。它将前两个阶段的估计与基于物理的约束相结合，从而产生一个物理上可信的实时3D运动捕捉结果，该结果符合基于物理的姿势和环境约束。下面，我们将详细描述每个阶段。

4.1 Stage I: Kinematic Pose Estimation

我们的运动姿势估计阶段遵循实时VNect算法(Mehta et al . 2017 b),见图3阶段1。我们第一次预测的2D关节热图和3D中关节位置的根相对(root-relative)位置图,使用的是特别定制ResNet卷积神经网络[He et al. 2016]。用于训练的ground truth joint locations取自2D case中的MPII [Andriluka et al. 2014]和LSP [Johnson and Everingham 2011]数据集，以及3D case中的MPI-INF-3DHP [Mehta et al. 2017a]和Human3.6m [Ionescu et al. 2013]数据集。

接下来，对估计的2D和3D关节位置进行时间滤波，并作为约束条件用于运动学骨架拟合的步骤，优化以下能量函数:

能量函数(3)包含四个项(见[Mehta et al. 2017b])，即三维逆运动学项EIK，投影项Eproj，时间稳定性项Esmooth和深度不确定性校正项Edepth。EIK是约束3D姿态接近CNN的3D联合预测的数据项。Eproj。强制姿势q将其重新投影到CNN检测到的2D关键点(关节)。请注意，这个再投影约束，连同校准的摄像机和校准的骨长度，能够计算摄像机空间中的全局3D根(骨盆)位置。通过分别通过essmooth和Edepth惩罚根的加速度和沿着深度通道的变化，进一步提高了时间稳定性。能量(3)采用非线性最小二乘优化(Levenberg- marquardt算法[Levenberg 1944;Marquardt 1963])，通过自适应一阶低通滤波器对固定骨骼长度的关节角度向量、根旋转和位置q进行平滑处理[Casiez et al. 2012]。人类骨骼的骨骼长度可以计算，直到全球尺度，从平均3D关节检测几个初始帧。知道人类的度量高度决定了比例因子来计算度量正确的全球三维姿势。阶段I的结果是一个时间一致的关节角度序列，但是，正如前面提到的，捕捉的姿势可能会显示出假象，并与物理上的合理性相矛盾(例如，表明地板穿透，不正确的身体倾斜，时间抖动，等等)。

能量函数(3)包含四个项(见[Mehta et al. 2017b])，即三维逆运动学项EIK，投影项Eproj。，时间稳定性项essmooth和深度不确定性校正项Edepth。EIK是约束3D姿态接近CNN的3D联合预测的数据项。Eproj强制姿态重新投影到CNN检测到的2D关键点(关节)。请注意，这个再投影约束，连同校准的摄像机和校准的骨长度，能够计算摄像机空间中的全局3D根(骨盆)位置。通过分别通过Esmooth和Edepth惩罚根的加速度和沿着深度通道的变化，进一步提高了时间稳定性。能量(3)采用非线性最小二乘优化(Levenberg- marquardt算法[Levenberg 1944;Marquardt 1963])，通过自适应一阶低通滤波器对固定骨骼长度的关节角度向量、根旋转和位置q进行平滑处理[Casiez et al. 2012]。人类骨骼的骨骼长度可以计算，直到全局尺度，从平均3D关节检测几个初始帧。知道人类的度量高度决定了比例因子来计算度量正确的全球三维姿势。阶段I的结果是一个时间一致的关节角度序列，但是，正如前面提到的，捕捉的姿势可能会显示出假象，并与物理上的合理性相矛盾(例如，表明地板穿透，不正确的身体倾斜，时间抖动，等等)。

4.2 Stage II: Foot Contact and Motion State Detection

双脚接触地面时产生的地面反作用力(GRF)使人类能够行走和控制自己的姿势。人体内部力和地面反力的相互作用控制人体姿态，通过控制重心(CoG)实现运动和身体平衡。因此，为了计算第三阶段GRF的物理上可信的姿态，我们需要知道脚与地板的接触状态。总的来说，两足动物姿势的物理合理性的另一个重要方面是平衡。当一个人站着或处于静止的直立状态时，她身体的CoG投射在一个支撑基座(BoS)内。BoS是地面上以足部接触点为界的一个区域，可视化参见图4。当CoG在BoS外以静止的姿势运动时，一个人开始失去平衡，如果不采取纠正动作或步骤，就会摔倒。因此，在单目姿态估计的结果中经常观察到保持一个广泛倾斜的静态姿态，这在物理上是不合理的(图4-(b))。上述CoG投影准则可用于校正不平衡的静止姿态[Coros等人2010;Faloutsos et al. 2001;Macchietto et al. 2009]。为了在第三阶段进行这样的纠正，我们需要知道一个姿势是静止的还是非静止的(它是否是运动/行走阶段的一部分)。

因此，第二阶段估计每帧中脚与地面的接触状态，并确定被试者在中的姿态是否静止。为了预测这两种状态，即足部接触和运动状态，我们使用了一种神经网络，其结构扩展了Zou等人(2020)，他们只预测足部接触。它由时间卷积层和一个完全连通层组成。网络作为输入所有2D要点从过去七次步骤(时间窗口大小设置为7)，并为每一帧图像返回二值标签，表示受试者处于静止或非静止的姿势，此外，在中还包含了前脚和脚后跟的接触状态标记。用于训练该网络的监督标签是根据Human3.6M (Ionescu et al. 2013)和DeepCap (Habermann et al. 2020)数据集的3D运动序列子集自动计算的，使用以下标准:前足和后足关节接触标签的计算是基于接触关节不滑动的假设，即速度低于5 cm/sec。此外,我们使用一个高度标准,也就是说,前脚/鞋跟,接触地面时,必须在3 d高度低于一个阈值。为每个序列来确定阈值,计算平均跟和前脚为每个主题使用前十帧(双脚接触地面时)。然后，根据= + 5cm的鞋跟和= + 5cm的前脚计算出重掌。这第二个标准是必要的，因为，否则，在空气中保持静止的一只脚也可以被标记为接触。

我们也会在相同的序列上自动标记静止和非静止的姿势。当站立和行走时，人体的CoG通常在3D中靠近骨盆，这与Human3.6M和DeepCap数据集中的骨骼根位置相对应。因此，当三维根的速度低于阈值时，我们将该姿态归为平稳，否则归为非平稳。总共生成了大约60万组人体图像的接触状态和运动状态标签。

4.3 Stage III: Physically Plausible Global 3D Pose Estimation

第三阶段使用阶段I和II作为输入的结果,也就是和。它将运动学运动估计转换成一个物理上可信的全局三维姿势序列，该序列与图像相对应，并遵循物理定律施加的解剖和环境约束。为此，我们将人类表示为一个具有浮动底座和PD关节控制器的扭矩控制模拟角色[A.Salem and Aly 2015]。核心是解决求解力矢量的能量优化问题 𝝉和加速度的特性，使方程有约束的运动被满足(第4.3.5节)。在此优化之前，对每一帧应用了几个预处理步骤。

首先i)，如果基于几个易于测试的标准是强烈不可信的，我们就纠正它(第4.3.1节)。第二(ii)，基于PD控制规则(第4.3.2节)，我们估计重现q所需的所需加速度。第三(iii)，在脚与地板接触的输入框架中(第4.3.3节)，我们估计了地面反力(GRF) (第4.3.4节)。第四(iv)，我们解决优化问题(10)来估计t和加速度，其中带有估计GRF l的运动方程和避免脚-地板穿透的接触约束(第4.3.5节)被集成为约束。请注意，只有当脚与地板接触时，接触约束才被集成。否则，(10)中只引入不含GRF的运动方程作为约束。v)最后，利用估计的加速度，使用有限差分法(Eq.(1))更新姿态。步骤ii) - v)对于视频的每一帧迭代n = 4次。

正如[Andrews et al. 2016]所观察到的，这两步优化iii)和iv)尽可能地减少了角色的根的直接驱动(否则可能会导致稍微不自然的移动)，并解释了在有脚-地板接触时，通过尽可能多地施加在其他关节上的力矩，运动学估计的根的位置和方向。此外，与同时估计相比，这两步优化的计算成本更低[Zheng和Yamane 2013]。因此，我们的算法在姿态精度、物理精度、捕捉运动的自然性和实时性能之间找到了一种貌似合理的平衡。

4.3.1 姿态校正 pose correction。

由于第一阶段的误差积累 (例如，由于3D标注偏离关节图5-(a)，以及神经网络预测和骨架拟合的不准确性)，估计的3D姿势通常在物理上是不可信的。因此，在基于扭矩的优化之前，如果1)静止的2)不平衡的，即在BoS之外的CoG项目，我们会从阶段I预校正一个姿态。如果两个校正标准都满足，则计算地平面法线𝑣𝑛与矢量𝑣𝑏之间的角度𝜃𝑡 它定义了脊柱相对于根的局部方向角色的坐标系统(示意图见图5-(b))。然后，我们将虚拟角色的方向纠正为某个姿态，而CoG在BoS中针对该姿态进行项目。在一大步中纠正𝜃𝑡可能导致基于物理的姿态优化的不稳定性。相反，我们通过虚拟角色围绕其水平轴(即穿过人体横轴的轴)的小旋转来减少𝜃𝑡，从第一帧的校正角开始。因此，我们在中累积后续帧的修正度，即。注意，𝜃𝑡在每一帧中都是递减的，并对随后的所有帧执行校正步骤，直到1)姿态变得非平稳或2)BoS1内部的CoG项目。

然而，仅仅通过绕水平轴旋转骨骼来纠正脊柱的方向可能会导致难以置信的站立姿势，因为获得的直立姿势仍然可能会不自然地弯曲膝盖(如图5-©所示)。为了解释这一点，我们调整了膝盖和臀部的相对自由度，这样，大腿和脊柱之间的相对方向，以及大腿和小腿之间的相对方向，就更直了。髋关节和膝关节矫正的开始，如果这两个矫正标准仍然满足，并且𝜃𝑡已经非常小。与𝜃校正类似，我们为每个膝盖和臀部引入累加器变量。膝盖和臀部的矫正步骤同样进行，直到1)姿势变得不稳定或2)BoS1内的CoG项目。

4.3.2 计算所需的加速度 Computing the Desired Accelerations

为了控制基于物理的虚拟角色，使其再现运动估计，我们根据PD控制器规则设置期望的关节加速度：

预期的加速度稍后会在GRF估计步骤(4.3.4节)和最终的姿态优化(4.3.5节)中使用。在系统的PD控制器的基础上控制角色的运动，使角色能够施加扭矩，重现运动估计，同时显著减轻不期望的影响，如关节和基位置抖动。

4.3.3 地板碰撞检测 Foot-Floor Collision Detection

为了在最后的位姿序列中避免脚-地板的穿透，并减轻接触位置滑动，我们在基于物理的位姿优化中集成了硬约束，在第4.3.5节中强制前脚掌和脚跟环节的速度为零。然而，当状态预测网络可能无法估计正确的足部接触状态时(例如，走路时脚突然停在空中)，这些约束可能会导致非自然运动。因此，我们更新状态预测网络的接触状态输出，得到，如下所示:

这意味着，我们认为前脚或脚后跟连杆只有在其高度小于小于校准地平面以上的阈值时，我们才认为它是接触的。

此外，我们使用Pybullet [Coumans和Bai 2016]物理引擎来检测左右脚连杆的脚底碰撞。需要注意的是，将网格碰撞信息与状态预测网络的预测相结合是必要的，因为1)在模拟中，当受试者的脚实际上与地板接触时，由于的不准确性，脚可能不会接触地板平面，2)当中实际存在足部接触时，若网络误检测到接触状态，则足部可渗透到网状地板平面中。

4.3.4 地面反作用力(GRF)估算。 Ground Reaction Force (GRF) Estimation

我们首先计算足部与地板接触时的GRF λ ，这最能解释根部的运动来自第一阶段。但是，第一阶段的目标轨迹在物理上可能不可信，因此我们最终还需要一个残余力直接施加在根部以解释目标轨迹；该力将在最终优化中计算。为了计算 GRF，我们解决了以下最小化问题：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ThcEfGgE-1644700502139)(/Users/kay/Library/Application Support/typora-user-images/image-20220213041829691.png)]

4.3.5 基于物理的姿态优化 Physics-Based Pose Optimisation

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4bjsMtre-1644700502140)(/Users/kay/Library/Application Support/typora-user-images/image-20220213042041434.png)]

在这一步中，我们利用运动方程(2)作为约束，解决一个优化问题来估计𝝉和以跟踪。当检测到接触时(第4.3.3节)，我们将估计的地面反力λ(第4.3.4节)积分到运动方程中。此外，我们引入接触约束，以防止在检测到接触时脚-地板穿透和脚滑动。

5 RESULTS

我们首先提供了PhysCap的实现细节(第5.1节)，然后展示了它最先进的定性结果(第5.2节)。接下来，我们将定量地评估PhysCap的性能(第5.3节)，并进行用户研究来评估结果的视觉物理合理性(第5.4节)。

我们在广泛使用的基准上测试了PhysCap [Habermann等人，2020;Ionescu等人2013年;Mehta et al. 2017a]以及[Peng et al. 2018]提供的后空翻和跳跃序列。我们还收集了各种具有挑战性的运动的新数据集。它以25帧/秒的速度记录了两名受试者在一般场景中的6个序列。对于录像，我们使用SONY DSC-RX0，关于序列的更多细节请参见表1。

图6. 通过我们的方法(浅蓝色)和Vnect Mehta et al. 2017b获得的两个重新投影的3D关键点的例子，以及从不同视角获得的相应的3D可视化效果。PhysCap可以产生更自然的身体姿势，而Vnect则患有不自然的身体倾斜(参见补充视频)。

图7. 重新投影的3D关键点到两个不同的图像，不同的视角下蹲。正面视图图像作为输入，参考视图图像仅用于定量评价。我们的结果用浅蓝色表示，VNect [Mehta et al. 2017b]的结果用黄色表示。我们的重新预测更加可行，这在参考观点中尤为明显。参见我们的补充视频

5.1 Implementation

我们的方法在拥有Ryzen7 2700 8核处理器、32gb RAM和GeForce RTX 2070显卡的PC上实时运行(平均25帧每秒)。在第一阶段，我们从VNect的免费演示版本开始[Mehta等人。2017b]。阶段II和III是用python实现的。在第二阶段，网络是由PyTorch实现的[Paszke等人2019]。在第三阶段，我们使用刚体动力学库[Felis 2017]来计算动态量。我们使用Pybullet [Coumans和Bai 2016]作为角色运动可视化和碰撞检测的物理引擎。在本文中，我们将所有关节的比例增益值kp和导数增益值kd分别设为300和20。对于根角加速度，kp和kd分别设置为340和30。根线加速度的KP和kd分别设为1000和80。所有的实验都使用这些设置。

5.2 Qualitative Evaluation 定性评估

本文的补充视频和结果图，特别是图1和图11显示，PhysCap实时捕获了全局3D人体姿势，即使是快速和困难的动作，如后空翻和跳跃，与以往的单目方法相比，质量有了显著提高。特别是，捕捉到的动作在时间上更加稳定，并且在身体姿势的自然性和环境约束的实现方面遵守物理定律，如图6、8和10所示为更自然的3D重建示例。这些特性对于图形的许多应用是必不可少的，特别是对于稳定的实时角色动画，这是可行的直接应用我们的方法的输出(见图1和补充视频)。

图8. 通过我们的方法和VNect [Mehta et al. 2017b]对结果进行了若干可视化分析。第一行和第二行分别显示了我们在输入图像及其3D视图中重新投影后估计的3D姿态。类似地，第三行和第四行显示了VNect的重新投影的3D姿势和3D视图。请注意，我们的动作捕捉显示，足部没有渗透到地板上，而这种假象在VNect结果中是明显的。

5.3 Quantitative Evaluation 定量评估

在下文中，我们首先在第5.3.1节中描述了我们的评估方法。我们在多种标准下评估PhysCap和竞争方法，即3D关节位置、重新投影的2D关节位置、足部穿透地板平面和运动抖动。我们比较了我们的方法与目前最先进的单目姿态估计方法，即 HMR [Kanazawa et al. 2018]， HMMR [Kanazawa et al. 2019]和Vnect[Mehta et al. 2017b] (在这里，我们使用作者提供的所谓演示版本，由于改进的训练，其准确性比原论文进一步提高)。为了进行比较，我们使用了基准数据集Human3.6M [Ionescu et al. 2013]、DeepCap数据集[Habermann et al. 2020]和mpifn - 3dhp [Mehta et al. 2017a]。从Human3.6M数据集中，我们使用了帧中没有遮挡对象的动作子集，例如:方向、讨论、吃饭、问候、摆姿势、购买、拍照、等待、散步、遛狗和一起散步。从DeepCap数据集中，我们使用subject 2来进行比较。

5.3.1 Evaluation Methodology

The established evaluation methodology in monocular 3D human pose estimation and capture consists of testing a method on multiple sequences and reporting the accuracy of 3D joint positions as well as the accuracy of the reprojection into the input views. The accuracy in 3D is evaluated by mean per joint position error (MPJPE) in mm, percentage of correct keypoints (PCK) and the area under the receiver operating characteristic (ROC) curve abbreviated as AUC. The reprojection or mean pixel error 𝑒 input 2𝐷 is obtained by projecting the estimated 3D joints onto the input images and taking the average per frame distance to the ground truth 2D joint positions. We report 𝑒 input 2𝐷 and its standard deviation denoted by 𝜎 input 2𝐷 with the images of size 1024 × 1024 pixels. As explained earlier, these metrics only evaluate limited aspects of captured 3D poses and do not account for essential aspects of temporal stability, smoothness and physical plausibility in reconstructions such as jitter, foot sliding, foot-floor penetration and unnaturally balanced postures. As we show in the supplemental video, top-performing methods on MPJPE and 3D PCK can fare poorly with respect to these criteria. Moreover, MPJPE and PCK are often reported after rescaling of the result in 3D or Procrustes alignment, which further makes these metrics agnostic to the aforementioned artefacts. Thus, we introduce four additional metrics which allow to evaluate the physical plausibility of the results, i.e., reprojection error to unseen views 𝑒 side 2𝐷 , motion jitter error 𝑒𝑠𝑚𝑜𝑜𝑡ℎ and two floor penetration errors – Mean Penetration Error (MPE) and Percentage of Non-Penetration (PNP). When choosing a reference side view for 𝑒 side 2𝐷 , we make sure that the viewing angle between the input and side views has to be sufficiently large, i.e., more than ∼ 𝜋 15 . Otherwise, if a side view is close to the input view, such effects as unnatural leaning forward can still remain undetected by 𝑒 side 2𝐷 in some cases. After reprojection of a 3D structure to an image plane of a side view, all further steps for calculating 𝑒 side 2𝐷 are similar to the steps for the standard reprojection error. We also report 𝜎 side 2𝐷 , i.e., the standard deviation of 𝑒 side 2𝐷 . To quantitatively compare the motion jitter, we report the deviation of the temporal consistency from the ground truth 3D pose. Our smoothness error 𝑒𝑠𝑚𝑜𝑜𝑡ℎ is computed as follows: 𝐽𝑖𝑡𝑋 =∥p 𝑠,𝑡 𝑋 − p 𝑠,𝑡−1 𝑋 ∥, 𝐽𝑖𝑡𝐺𝑇 =∥p 𝑠,𝑡 𝐺𝑇 − p 𝑠,𝑡−1 𝐺𝑇 ∥, 𝑒𝑠𝑚𝑜𝑜𝑡ℎ = 1 𝑇𝑚 Í𝑇 𝑡=1 Í𝑚 𝑠=1 |𝐽𝑖𝑡𝐺𝑇 − 𝐽𝑖𝑡𝑋 |, (11) where p 𝑠,𝑡 represents the 3D position of joint𝑠 in the time frame 𝑡.𝑇 and𝑚 denote the total numbers of frames in the video sequence and target 3D joints, respectively. The subscripts 𝑋 and 𝐺𝑇 stand for the predicted output and ground truth, respectively. A lower 𝑒𝑠𝑚𝑜𝑜𝑡ℎ indicates lower motion jitter in the predicted motion sequence. MPE and PNP measure the degree of non-physical foot penetration into the ground. MPE is the mean distance between the floor and 3D foot position, and it is computed only when the foot is in contact with the floor. We use the ground truth foot contact labels (Sec. 4.2) to judge the presence of the actual foot contacts. The complementary PNP metric shows the ratio of frames where the feet are not below the floor plane over the entire sequence.

5.3.2 Quantitative Evaluation Results.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PIgcaiI9-1644700502140)(/Users/kay/Library/Application Support/typora-user-images/image-20220213044833714.png)]

表2。在基准数据集上与VNect [Mehta et al. 2017b]、HMR [Kanazawa et al. 2018]和HMMR [Kanazawa et al. 2019]进行三维误差比较。We report the MPJPE in mm, PCK at 150 mm and AUC。AUC和PCK越高越好，MPJPE越低越好。请注意，HMR和HMMR的全局根位置是通过使用从方法中获得的2D和3D关键点来解决2D投影损失的优化来估计的。在所有数据集上，我们的方法与性能最好的方法相当，而且通常接近。它始终能产生最佳的全局根轨迹。正如本文所指出的，这些在姿态估计文献中广泛使用的度量只是描绘了一个不完整的画面。有关更多细节，请参阅第5.3节。

表3。在DeepCap数据集上，正面视图(输入)和侧面视图(非输入)的2D投影误差[Habermann等人，2020]。PhysCap与VNect在正面视图上的表现相似，在侧面视图上明显更好。详情见5.3节和图7

表4。DeepCap [Habermann et al. 2020]和Human 3.6M数据集[Ionescu et al. 2013]的时间平滑性比较。PhysCap显著优于VNect和HMR，在这个指标上与HMMR的表现相当。有关详细说明，请参见5.3节。

表5所示。DeepCap数据集上的平均渗透误差(MPE)和非渗透百分比(PNP)的比较[Habermann等人，2020]。在这个测量物理运动正确性的重要方面，PhysCap明显优于VNect。

表2总结了在我们和相关方法的误差计算之前，有(第一行)Procrustes对齐和没有(第二行)Procrustes对齐的根相对关节位置的MPJPE、PCK和AUC。我们还在第三行报告全局根位置的准确性。由于HMR和HMMR不返回全局根位置作为它们的输出，我们通过使用这些算法(类似于VNect中的解决方案)获得的2D和3D关键点来求解2D投影能量项的优化，从而估计3D中的根平移。HMR和HMMR的3D骨长度被重新调整，以便它们与地面真实骨长度相匹配。

在MPJPE、PCK和AUC方面，我们的方法并不始终优于其他方法，但在Human3.6M、DeepCap和MPI-INF-3DHP上实现了可比较的准确性，通常接近最高。在第三行，我们还评估了全局3D基位精度，这对于从捕获的数据中获取角色动画至关重要。在这里，PhysCap在所有数据集上的性能始终优于其他方法。

如前所述，上面的度量只描绘了一幅不完整的画面。因此，我们还测量了对DeepCap数据集上的输入视图和侧视图的2D投影误差，因为该数据集包含了多个具有宽基线的动态场景同步视图。表3总结了平均像素误差和及其标准差。在正面图中，即在上，VNect比PhysCap具有更高的精度。然而，这是由于经常违反物理约束(地板穿透)和产生不自然的倾斜和抖动的3D姿势(参见补充视频)。相比之下，由于PhysCap明确地模拟了物理姿势的合理性，因此它在侧视图上优于VNect，这显示了VNect难以置信的倾斜姿势和深度根位置的不稳定性，也见图6和图7。

为了评估运动平稳性，我们在表4中报告了及其标准差。我们的方法在两个数据集上都比Vnect和HMR的表现要好得多。我们的方法在DeepCap数据集上优于HMMR，在Human3.6M数据集上略差。HMMR是当前最先进的算法之一，在体系结构中有一个显式的时间组件。

表5总结了DeepCap数据集上Vnect和PhysCap的MPE和PNP。与VNect相比，我们的方法得到了明显更好的结果，即MPE降低了30%左右，PNP的结果提高了100%，定性例子见图8。图9显示了通过我们的方法计算出的接触力作为时间函数的图，该方法来自我们新记录的数据集(序列1)。估计的函数属于行走运动的合理力范围[Shahabpoor和Pavic 2017]。

图9所示。估计的接触力作为行走序列的时间函数。我们观察到接触力保持在行走运动的合理范围内[Shahabpoor和Pavic 2017]。

5.4 User Study

physical plausibility的概念可以从一个人到另一个人的主观理解和感知。因此，除了对现有和新的指标进行定量评估外，我们还进行了一项在线用户研究，该研究允许具有不同计算机图形学和视觉背景的广泛受众对重建过程中不同效果的感知程度进行主观评估和比较。我们总共准备了34个带有视频的问题，在这些问题中，我们总是一次展示一到两个重构(我们的结果，一个竞争方法的结果，或两者同时)。共有27名受访者参与了调查。有不同类型的问题。在16个问题(第一类)中，受访者被要求从两个看起来对他们来说更合理的3D重建(第一个，第二个，或尚未决定)。在12个问题(第二类)中，受访者被要求评价3D重建运动的自然程度，或在一个预定义的尺度上评估一个指示的效果(脚的滑动，身体倾斜等)的程度。在五个问题(类别III)中，受访者还被要求决定哪个可视化有更明显的指示人工制品。在5个问题中，有2个问题显示了对输入的2D图像序列的2D投影，而这类问题中的其余问题则显示了3D重建。最后(第IV类)，鼓励参与者列出在重建中似乎最明显和最频繁的人工制品。在第一类中，89.2%的病例首选我们的重建方法，而1.6%的病例首选竞争方法。同时需要注意的是，在8.9%的病例中，还没有做出两种方法之间的决定。在第二类中，受访者还发现，我们的方法的结果在物理上明显比其他方法的结果更可信。后者也被发现有更多的颤抖，脚滑动和不自然的身体倾斜。在第三类中，值得注意的是，参与者表明我们的重新预测的平均感知准确度更高，即32.7%的人认为我们的结果重新预测更好，而在22.6%的案例中，选择的是竞争方法。请注意，结果中的平滑和抖动也反映在重新投影中，因此，两者都影响到重新投影的骨骼看起来的自然程度。同时，该方法的不确定度为44.2%，表明该方法与其他方法的重投影结果差异较大。对于这一类的3D运动，82.7%的人认为我们的结果比其他方法显示更少的指示人工制品，而13.5%的受访者更喜欢竞争的方法。有3.7%的案件没有做出裁决。在第IV类中，59%的参与者认为抖动是比赛方法中最常见和最明显的干扰效应，其次是不自然的身体倾斜(22%)，脚穿地(15%)和脚滑动(15%)。用户研究证实了PhysCap结果的高水平的物理合理性和自然性。我们也从主观上看到，广大观众一致认为我们的结果具有高视觉质量，与竞争对手的方法存在巨大差距。这加强了我们对PhysCap适用于计算机图形和主要的实时虚拟角色动画的信念。

6 DISCUSSION

我们的基于物理的单目3D人体运动捕捉算法显著减少了其他单目3D姿态估计方法的常见假象，如运动抖动、穿透地板、脚滑动和不自然的身体倾斜。实验表明，我们的状态预测网络在不同背景的场景中具有很好的泛化效果(见图11)。然而，在足部闭塞的情况下，我们的状态预测网络有时会对足部接触状态进行错误的预测，导致足部出现错误的硬零速度约束。此外，我们的方法需要经过校准的地板平面来有效地应用足部接触约束;标准校准技术可用于此。

快速运动对于我们管道的第一阶段来说是一个挑战，这可能导致后续阶段的估计不准确，以及最终的估计不准确。在未来，如果对其他单目运动位姿估计器进行训练，可以更好地处理遮挡和非常快的运动，则可以在第一阶段测试其他单目运动位姿估计器[Mehta et al. 2017b]。此外，需要注意的是，尽管我们在所有的实验中使用了单一的参数集(见第5节)，但用户可以根据场景调整PD控制器的增益参数来调整重构运动的质量。通过增加导数增益值，重构的位姿更加平滑，但是，与输入视频相比，这可能会导致运动延迟，特别是当观察到的运动非常快时。通过减小导数增益值，我们对虚拟角色的优化可以以较少的时间相干运动为代价，以较少的运动延迟来跟踪图像序列。我们在补充的视频中演示了这种权衡。

此外，虽然我们的方法适用于一般背景，但我们假设场景中有一个地面，这是大多数人造环境的情况，但不不规则的室外地形。最后，我们的方法目前只考虑一个子集的潜在的身体到环境的接触基于物理的方式。作为未来工作的一部分，我们将研究自碰撞的明确建模，以及手-景交互或腿和身体在坐和躺姿势的接触。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TjvkoOoK-1644700502141)(/Users/kay/Library/Application Support/typora-user-images/image-20220213050504998.png)]

图10所示。通过我们的方法，Vnect [Mehta et al. 2017b]， HMR [Kanazawa et al. 2018]和HMMR [Kanazawa et al. 2019]对DeepCap数据集的结果的几个侧面(非输入)视图可视化。绿色虚线表示一段时间内期望的根位置。从侧面看，我们的PhysCap与其他方法不同，它不受沿着深度方向的非自然身体滑动的影响。我们使用这些技术的相对根预测来计算HMR和HMMR的全局基位，更多细节请参见第5.3.2节。

7.CONCLUSIONS

	我们已经展示了PhysCap，这是第一个基于物理的方法，通过单个RGB摄像机以25帧/秒的速度实时运行，捕捉全球3D人体动作。由于采用了PD关节控制的姿态优化框架，PhysCap的结果表明，与其他现有方法(其中一些方法包括时间约束)相比，物理合理性、时间一致性得到了改善，并且显著减少了人为因素，如抖动、脚滑动、非自然的身体倾斜和脚底穿透。我们还引入了新的误差度量来评估这些改进的特性，这些特性在已建立的姿态估计基准中不容易被度量所捕获。此外，我们的用户研究进一步证实了这些改进。在未来的工作中，我们的算法可以扩展到各种接触位置(不仅仅是脚)。