当前位置：首页 > news >正文

TransPose: Keypoint Localization via Transformer（ICCV2021）

news 2025/7/4 22:42:44

文章目录

Abstract
Introduction
Related Work
- Human Pose Estimation
- Explainability
- Transformer
Method
- Architecture
- Resolution Settings
- Attentions are the Dependencies of Localized Keypoints
Experiments
- Results on COCO keypoint detection task
- Transfer to MPII benchmark
- Ablations
- Qualitative Analysis
Conclusion

Abstract

虽然基于cnn的模型在人体姿势估计方面取得了显著进展，但它们捕获的空间依赖关系来定位关键点仍不清楚。在这项工作中，我们提出了一个名为转置的模型，该模型引入了用于人体姿态估计的Transformer。Transformer中内置的注意层使我们的模型能够有效地捕获远程关系，并且还可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图，最后一个注意层作为聚合器，收集图像线索的贡献，形成关键点的最大位置。这种通过Transformer基于热图的定位方法符合激活最大化[20]的原则。并且揭示的依赖关系是特定于图像的和细粒度的，这也可以提供模型如何处理特殊情况的证据，例如遮挡。实验表明，transse在COCO验证集和测试开发集上分别实现了75.8 AP和75.0 AP，同时比主流CNN架构更轻量化和更快。transse模型在MPII基准上的转移也非常好，当以较小的训练成本进行微调时，在测试集上取得了优异的性能。

Introduction

深度卷积神经网络在人体姿态估计领域取得了令人瞩目的成绩。DeepPose[58]是早期的经典方法，直接回归关键点的数值坐标位置。之后，像[62,38,40,65,12,42,63,53]这样的全卷积网络通过预测关键点热图成为主流，它隐式地学习身体部位之间的空间依赖关系。然而，大多数先前的工作将深度CNN作为一个强大的黑箱预测器，并专注于改进网络结构，模型内部究竟发生了什么，或者它们如何捕捉身体部位之间的空间关系仍然不清楚。然而，从科学和实践的角度来看，模型的可解释性可以帮助从业者理解模型如何将结构变量关联起来以达到最终预测，以及姿态估计器如何处理各种输入图像。它还可以帮助建模开发人员进行调试、决策和进一步改进设计。

对于现有的姿态估计器，一些问题使其决策过程难以理解。(1)深度。基于cnn的模型，如[62,40,63,53]，通常是非常深的非线性模型，这阻碍了对每一层功能的解释。(2)隐式关系。身体各部分之间的全局空间关系隐式编码在神经元激活和cnn的权重中。在神经网络中，将这种关系从大量的权重和激活中解耦是不容易的。而仅仅可视化具有大量通道的中间特征（例如SimpleBaseline架构中的256,512[63]）提供的解释意义不大。(3)推断各种图像的工作记忆有限。模型预测所需的解释应该是特定于图像的和细粒度的。然而，在推断图像时，由于工作记忆有限，静态卷积核在表示变量的能力上受到限制[24,25,28]。因此，由于cnn的参数与内容无关，但输入的图像内容是可变的，因此很难捕获特定于图像的依赖关系。(4)工具缺乏。虽然已经有很多基于梯度或归因的可视化技术[20,66,51,50,22,41,71,2]，但它们大多侧重于图像分类，而不是定位。它们旨在揭示特定于类的输入模式或显著性映射，而不是解释结构变量之间的关系（例如，关键点的位置）。到目前为止，如何开发可解释姿态估计器仍然是一个挑战。

下图：推理管道。上图：每个预测关键点位置的依赖区域。在这个例子中，这个人的左脚踝被一只狗咬住了。模型使用哪些确切的图像线索来推断闭塞的关节？注意图（红框）提供了超越直觉的细粒度证据：这种姿势估计器高度依赖于左脚踝、左上肢和右腿关节周围的图像线索来估计左脚踝闭塞的位置。

在这项工作中，我们的目标是建立一个人体姿态估计器，可以明确地捕捉和揭示关键点之间特定于图像的空间依赖关系，如图1所示。由于卷积[47]的池缩放特性，我们认为卷积在提取低级特征方面具有优势，但在高级深度堆叠卷积以扩大接受场并不能有效捕获全局依赖关系。这种深度增加了解读CNN预测的难度。Transformer架构[60]在绘制成对或高阶交互方面比cnn具有天然优势。如图2所示，注意层使模型能够捕捉任何成对位置之间的相互作用，其注意图充当存储这些依赖关系的即时记忆。

左图：接受野在更深的卷积层扩大。右图：一个自关注层可以捕捉任意一对位置之间的成对关系。

基于这些考虑，我们提出了一种称为TransPose的新模型，使用卷积在低级提取特征，使用Transformer在高级捕获全局依赖关系。具体来说，我们将特征映射作为Transformer的输入，并将其输出恢复到2d结构热图中。在这样的设计中，Transformer中的最后一个注意层专门充当聚合器，它根据注意分数收集所有图像位置的不同贡献，最终形成热图中的最大位置。这种通过Transformer的关键点定位方法与激活最大化的可解释性建立了联系[20,51]，并将其扩展到定位任务。由此产生的注意力分数可以表明哪些具体的图像线索对预测的位置有显著贡献。有了这些证据，我们可以通过检验不同实验变量的影响来进一步分析模型的行为。综上所述，我们的贡献如下：

在人体姿态估计中引入Transformer来预测基于热图的关键点位置，从而有效地捕捉人体部位之间的空间关系
我们证明了基于Transformer的关键点定位方法符合激活最大化的可解释性[20,51]。定性分析揭示了直觉之外的依赖关系，这些依赖关系是特定于图像和细粒度的。
TransPose模型通过更少的参数和更快的速度实现了与最先进的基于cnn的模型的竞争性能。transpose在COCO验证集和测试开发集上分别达到75.8 AP和75.0 AP，参数比HRNet-W48少73%，速度比HRNet-W48快1.4倍。此外，我们的模型在MPII基准上的转换非常好。

Related Work

Human Pose Estimation

深度cnn在人体姿态估计方面取得了巨大的成功。vanilla卷积核的归纳偏差[33,31]是局域性和平移等方差。事实证明，该方法能够有效地提取图像的底层特征。对于人体姿态估计，捕获全局依赖关系至关重要[48,57,62,42]，但卷积的局部性使其无法捕获远程相互作用。一个典型但野蛮的解决方案是扩大接受域，例如通过降低分辨率，增加深度或扩大内核大小。此外，还提出了复杂的策略，如多尺度融合[40,45,65,12,53,15,13]，堆叠[62,63,40]或高分辨率表示[53]；与此同时，出现了许多成功的架构，如CPM[62]、沙漏网络[40]、FPN[65]、CPN[12]、SimpleBaseline[63]、HRNet[53]、RSN[8]，甚至自动化架构[64,23,39,14,70]。但随着结构的日益复杂，寻求人体姿态估计模型的可解释性比以往任何时候都更具挑战性和紧迫性。相比之下，我们的模型可以有效而明确地估计人体姿势。

Explainability

可解释性意味着人类能够更好地理解模型是如何做出预测的。正如[49]所调查的那样，许多作品将解释的目标定义为确定哪些输入与预测最相关，这也是我们在本文中寻求的目标。[20,34]在输入空间中执行梯度下降，以找出哪些输入模式可以最大化给定单元。[51,21]进一步考虑生成特定于图像的类显著性映射。[66]使用DeConvNet生成特征活动来显示卷积层已经学习了什么。一些姿态估计方法[34,69]通过选择特定的神经元或通道来可视化特征映射，但结果无法揭示部分之间的空间关系。[56]估计关键点之间的概率分布和互信息，但只显示统计信息，而不是图像特定的解释。还有Network Dissection[3]、Feature Visualization[41]、Excitation Backprop[68]、LRP attribution method[2]、CAM[71]、gradi -CAM[50]等作品，旨在解释CNN分类器的预测或可视化显著影响类的显著区域。与大多数先前的工作不同，我们的目标是揭示结构骨架中身体关节变量之间的细粒度空间依赖关系。我们的模型可以直接利用注意力模式来整体解释它的预测，而不需要外部工具的帮助。我们还注意到最近的一篇论文[10]，该论文开发了基于lrp1的[2]方法来计算相关性，以解释Transformer的预测。采用ViT模型[19]对特定类的关联图进行可视化，显示出合理的结果。与他们的目标不同，我们专注于揭示哪些线索有助于视觉关键点定位，我们模型中的关注为预测提供了明确的证据。
值得注意的是，有一些作品，如CoordConv[37]和Zero Padding[30]，解释了神经网络如何通过设计代理任务来预测位置并存储位置信息。我们还通过实验研究了位置嵌入在未知输入尺度下预测位置的重要性及其泛化。

Transformer

Transformer由Vaswani等人提出，用于神经机器翻译（NMT）任务[55]。像BERT [18]， GPT-2[46]这样的基于大型transformer的模型通常是在大量数据上进行预训练，然后针对较小的数据集进行微调。最近，视觉转换层或注意力增强层被合并为视觉任务的新选择，如[44,47,5,19,59,9,11,16,72,61]。DETR[9]通过引入对象查询直接预测一组对象实例。ViT[19]是在大数据上预训练纯Transformer，然后在ImageNet上进行微调进行图像分类。DeiT[59]引入了一个蒸馏令牌来从老师那里学习知识。也有作品[27,29,35]将Transformer应用于3D姿态估计。[27]通过注意机制融合多视角图像的特征。[29,35]输出由位姿的关节/顶点坐标组成的1D序列。与它们不同的是，我们使用Transformer来预测2D人体姿态估计问题中关键点的空间分布表示的2D热图。

Method

我们的目标是建立一个模型，可以显式地捕获人体各部分之间的全局依赖关系。我们首先描述模型体系结构。然后，我们展示了它如何利用自我关注来捕捉全局交互，并在我们的方法和原则之间建立联系

首先，通过CNN主干提取特征映射，并将其平面化成序列；接下来，Transformer编码层通过查询键-值关注从序列中迭代地捕获依赖项。然后，使用简单的头部来预测关键点热图。Transformer中的注意力图可以揭示哪些依赖关系（区域或连接点）对预测的关键点热图中的激活最大位置有重要贡献。

Architecture

如图3所示，transse模型由三部分组成：用于提取底层图像特征的CNN主干；transformer编码器，用于捕获跨位置的特征向量之间的远距离空间相互作用；一个头部预测关键点热图。
Backbone：为了更好地进行比较，我们选择了两种典型的CNN架构：ResNet[26]和HRNet[53]。我们只保留原始ImageNet预训练cnn的初始部分，从图像中提取特征。我们将其命名为ResNet-S和HRNet-S，其参数数仅为原始cnn的5.5%和25%左右。
Transformer。我们尽可能地遵循标准的Transformer体系结构[60]。并且只使用Encoder，因为我们认为纯热图预测任务就是一个简单的编码任务，它将原始图像信息压缩成一个紧凑的关键点位置表示。给定输入图像I∈R3×HI×WI，我们假设CNN主干输出一个二维空间结构图像特征Xf∈Rd×H×W，其特征维数通过1×1卷积变换为d。然后，将图像特征映射平面化成序列X∈RL×d，即L = H × w的L维特征向量，经过N个注意层和前馈网络（ffn）。
Head。在transformer编码器输出E∈RL×d上附加一个头，以预测K种关键点热图P∈RK×H∗×W∗，其中H∗，W∗默认= HI /4, WI /4。我们首先将E重塑回Rd×H×W形状。然后，我们主要使用1×1卷积将E的通道维数从d降至k。如果H， W不等于H∗，W∗，则在1×1卷积之前使用额外的双线性插值或4×4转置卷积进行上采样。注意，1×1卷积完全等价于位置线性变换层。

Resolution Settings

我们限制注意层以rx下采样率（相对于原始输入）的分辨率操作，即H， W = HI /r, WI /r。在常见的人体姿态估计架构[62,40,63,53]中，通常采用32x下采样作为标准设置，以获得包含全局信息的极低分辨率地图。相比之下，我们对ResNet-S和HRNet-S采用r = 8和r = 4的设置，这有利于在注意层的内存占用和详细信息的丢失之间进行权衡。因此，我们的模型以更高的分辨率直接捕获远程交互，同时保留细粒度的局部特征信息。

Attentions are the Dependencies of Localized Keypoints

Self-Attention机制。transformer[60]的核心机制是多头自我关注。它首先将输入序列X∈RL×d通过三个矩阵Wq，Wk，Wv∈Rd×d投影到查询Q∈RL×d，键K∈RL×d和值V∈RL×d中。那么，注意力得分矩阵x2 A∈RN×N的计算公式为：

令牌xi∈Rd（即位置i的特征向量）的每个查询qi∈Rd计算与所有键的相似度，从而得到一个权重向量wi = Ai,:∈R1×L，该权重向量决定了前一个序列中每个令牌需要依赖的程度。然后，通过将Value矩阵V中的所有元素与wi中相应的权重进行线性和并添加到xi中来实现增量。通过这样做，注意图可以被看作是由特定图像内容决定的动态权重，在前向传播中重新加权信息流。
自关注捕获并揭示了从每个图像位置汇总的预测贡献有多大。这些来自不同图像位置的贡献可以通过梯度来反映[51,2,50]。因此，我们具体分析图像/序列位置j处的xj如何影响预测关键点热图位置i处的激活hi，方法是计算hi∈RK （K个关键点类型）的导数w.r.t最后一个注意层输入序列位置j处的xj。我们进一步假设G:=∂hi∂xj是一个函数w.r.t.给定的注意力分数Ai，j。我们获得:

其中K， B∈RK×d为静态权重（推断时固定），在所有图像位置共享。公式2的推导见附录。我们可以看到，函数G与Ai，j近似线性，即对预测的贡献程度hi直接取决于其在图像位置的注意力得分。

其中，最后一层作为聚合器，根据关注收集所有图像位置的贡献，并在预测的关键点热图中形成最大激活。虽然FFN和head中的层不能被忽略，但它们是位置的，这意味着它们通过相同的变换近似地线性变换来自所有位置的贡献，而不改变它们的相对比例。
激活的最大位置是关键点的位置，激活最大化的可解释性[20,51]在于：能够最大化给定神经元激活的输入区域可以解释这个被激活的神经元正在寻找什么。

在这个任务中，TransPose的学习目标是期望热图位置i∗处的神经元激活hi∗被最大激活，其中i∗表示关键点的真值位置：

假设模型已经用参数θ *进行了优化，并且它预测一个特定关键点的位置为i（热图中的最大位置），那么为什么模型预测这样的预测可以用这样一个事实来解释，即那些位置J，其元素J与i具有更高的注意分数（≥δ），是对预测有显著贡献的依赖关系。依赖项可以通过以下方式找到：

其中A∈RL×L是最后一个注意层的注意图，也是一个函数w.r.t θ∗和I，即A = A （θ∗，I）。给定图像I和查询位置I， Ai，：可以显示预测位置I高度依赖的依赖项，我们将其定义为依赖区域。A:，j可以揭示一个位置j主要影响的区域，我们定义它的影响区域。

对于传统的基于cnn的方法，它们也使用热图激活作为关键点位置，但由于深度cnn的深度和高度非线性，人们无法直接找到预测的可解释模式。基于人工智能的方法[20,34,66,51]可能会提供见解，但它们需要额外的优化成本来学习卷积核更喜欢寻找的可解释模式。与它们不同的是，我们通过Transformer将AM扩展到基于热图的定位，并且我们不需要额外的优化成本，因为优化已经在我们的训练中隐式完成，即A = A （θ∗，I）。已定义的依赖区域是我们寻找的模式，它可以显示特定于映像和特定于关键点的依赖。

Experiments

数据集。我们在COCO[36]和MPII[1]数据集上评估了我们的模型。COCO包含20万张原始图像和25万个人实例。Train2017由57k张图片和150k个人实例组成。Val2017集包含5k个图像，test-dev2017集包含20k个图像。在第4.2节中，我们展示了在MPII[1]上的实验。我们采用这些基准的标准评估指标。
技术细节。我们遵循自上而下的人体姿势估计范式。训练样本是单个人裁剪的图像。我们将所有输入图像调整为256 × 192分辨率。我们使用与[53]相同的训练策略、数据增强和人员检测结果。我们还采用了[67]提出的坐标解码策略，以减少对降尺度热图进行解码时的量化误差。前馈层采用0.1 dropout和ReLU激活函数进行训练。接下来，我们将基于ResNet-S和HRNet-S的模型命名为转置- r和转置- h，缩写为TP-R和TP-H。表1中报告了体系结构细节。我们对所有模型使用Adam优化器。TP-R训练周期为230次，TP-H训练周期为240次。使用余弦退火学习速率衰减。TP-R-A4和TP-H-A6模型的学习率从0.0001衰减到0.00001，我们建议对所有模型使用这样的时间表。考虑到与主干网的兼容性和内存消耗，我们调整了Transformer编码器的超参数，使模型容量不是很大。此外，我们使用2D正弦位置嵌入作为默认位置嵌入。我们在附录中对此进行了描述。

Results on COCO keypoint detection task

我们将transse与SimpleBaseline、HRNet和DARK进行比较[67]。特别地，我们根据官方代码对DARK-Res50进行了训练，并对其进行了transpser - a4的数据增强，达到了72.0AP；当对其使用完全相同的数据增强和较长的转置- r - a4训练计划时，我们获得了72.1AP （+0.1 AP）。表2中显示的其他结果来自论文。我们在同一个NVIDIA 2080Ti GPU上测试了所有模型，并在相同的实验条件下计算了平均FPS。在输入分辨率- 256×192下，转置- r - a4和转置- h - a6明显优于SimpleBaseline-Res152 (+0.6AP)[63]、HRNetW48 (+0.7AP)[53]和DARK-HRNet [67] (+0.2AP)，且模型参数明显减少，速度更快。表3显示了COCO测试集的结果。

Transfer to MPII benchmark

典型的姿态估计方法通常分别在COCO和MPII[1]上训练和评估模型。受NLP预训练的成功和最近的ViT b[19]的激励，我们试图将我们的预训练模型转移到MPII中。我们将预训练的转置模型的最后一层替换为均匀初始化的d × 16线性MPII层。当微调时，预训练层和最终层的学习率分别为1e-5和1e-4，并且有衰减。

为了进行比较，我们在MPII上使用相同的设置微调预训练的DARKHRNet，并通过标准的完整训练设置在MPII上训练这些模型。如表5和图4所示，结果很有趣：即使有更长的完整训练周期，模型的表现也不如微调模型；即使模型容量较大（28.5M），预训练DARKHRNet带来的改进（+1.4 AP）也小于预训练转置（+2.0 AP）。在256×256输入分辨率下，在MPII训练集和val集上进行微调，转置算法在MPII测试集上得到的最佳结果准确率为93.9%，如图6所示。这些结果表明，预训练和微调可以显著降低训练成本和提高性能，特别是对于预训练的转置模型。

基于transformer的模型的预训练和微调在NLP[18,46]和最近的视觉模型[19,11,16]中显示出良好的效果。我们在MPII上的初步结果也表明，在大规模姿势相关数据上训练基于transformer的模型可能是一种用于人体姿态估计及其后续任务很有前途的学习强大和鲁棒表示的方法。

Ablations

位置嵌入的重要性。如果不进行位置嵌入，transformer的二维空间结构信息就会丢失。为了探索其重要性，我们在转置- r - a3模型上进行了三种位置嵌入策略的实验：二维正弦位置嵌入、可学习位置嵌入和w/o位置嵌入。正如预期的那样，位置嵌入的模型表现更好，特别是2D正弦位置嵌入，如表4所示。但有趣的是，转置w/o任何位置嵌入只损失1.3 AP，这表明2d结构变得不那么重要了

缩放变压器编码器的大小。我们研究了变压器编码器的大小对性能的影响，如表7所示。对于转置- r模型，随着层数增加到6层，性能提升逐渐趋于饱和或退化。但我们在转置- h模型上没有观察到这种现象。缩放变压器可以明显提高转置- h的性能。

位置嵌入有助于更好地泛化看不见的输入分辨率。自上而下的范例将所有裁剪的图像缩放为固定大小。但在某些情况下，即使有固定的输入大小或自下而上的范式，输入中的主体大小也是不同的；对不同尺度的鲁棒性变得很重要。因此，我们设计了一个极端的实验来测试推广：我们在看不见的128×96, 384×288, 512×388输入分辨率上测试SimpleBaseline-ResN50- Dark和TransPose-R-A3模型，所有这些模型都只接受过256×192大小的训练。有趣的是，图5的结果表明，SimpleBaseline和转置- r w/o位置嵌入在未见分辨率下有明显的性能崩溃，特别是在128×96上；而可学习的转置- r或2D正弦位置嵌入具有更好的泛化效果，特别是对于2D正弦位置嵌入。

对于输入分辨率，我们主要在256×192上训练我们的模型，因此在TP-R和TP-H模型中变压器的序列长度为768和3072。如果我们将训练输入扩展到更高的分辨率，如384×288，对应的序列长度将增加到当前模型的1728和6912，理论上在自注意层中带来过高的计算成本。降低CNN骨干网的输出分辨率可以缓解这一问题。在未来，使用ALBERT[32]中的跨层参数共享或TransformerXL[17]中的段级递归机制等技术来处理较长的序列可能有助于减少模型参数和二次计算成本。

Qualitative Analysis

转置模型的超参数配置可能以一种未知的方式影响模型的行为。在本节中，我们选择训练模型、预测关键点类型、注意层深度和输入图像作为控制变量，观察这些变量如何影响模型的行为。
不同的CNN提取器对模型的依赖偏好是不同的。为了比较基于ResNet-S和HRNet-S的模型，我们以训练后的模型TP-R-A4和TP-H-A4的性能为例。如图6所示，我们选择两个典型的输入A和B作为示例，并将3.3节中定义的依赖区域可视化。我们发现，虽然TP-R-A4和TP-H-A4预测的关键点位置完全相同，但TP-H-A4可以利用多个更远距离的关节线索来预测关键点。相比之下，TP-RA4更倾向于关注目标关节周围的局部图像线索。附录10中可视化的受影响区域可以进一步证实这一特征，其中TP-H-A4中关键点的受影响区域较大且非局部。虽然这些结果不像通常期望的那样，但它们反映了：1)姿态估计器使用远程关节的全局信息来定位特定关节；2) HRNet-S在捕获远程依赖关系信息方面优于ResNet-S（可能是由于其多尺度融合方案）。

依赖关系和影响因不同类型的关键点而异。对于头部的关键点，定位主要依靠头部的视觉线索，但TP-H-A4也将其与肩膀和手臂关节联系起来。值得注意的是，两种模型对手腕、肘部、膝盖或脚踝的预测依赖关系存在明显差异，其中TP-R-A4依赖于同侧的局部线索，而TP-H-A4更多地利用系统测量侧关节的线索。
如图6(b)、图6(d)、图7所示，我们可以进一步观察到，姿态估计器可能会从更多的部位收集强线索来预测目标关键点。这可以解释为什么模型仍然可以准确地预测被遮挡关键点的位置，并且具有模糊位置的被遮挡关键点对其他预测的影响较小或依赖的不确定区域较大(例如被遮挡的左脚踝-图6（c)或图6(d)的最后一张地图）。
随着深度的增加，注意力逐渐集中在更细粒度的依赖关系上。观察所有注意层（图7的第1、2、3行），我们惊奇地发现，即使没有中间GT位置监督，TP-H-A4仍然可以注意到关节的准确位置，但在早期注意层中有更多的全局线索。对于这两种模型，随着深度的增加，预测逐渐依赖于局部部位或关键点位置周围更细粒度的图像线索（图7）。

单个模型的特定于映像的依赖关系和统计共性。与训练后CNN权重编码的静态关系不同，注意图对输入是动态的。如图6(a)和图6©所示，我们可以观察到，尽管预测关键点的依赖关系在统计上具有共性（大多数常见图像的行为相似），但细粒度依赖关系会根据图像上下文略有变化。在给定图像（如输入B）存在遮挡或不可见的情况下（图6©），该模型仍然可以通过寻找更重要的图像线索来定位部分遮挡的关键点的位置，并减少对不可见关键点预测其他关键点的依赖。未来的工作可能会利用这种注意力模式进行部分到整体的关联，并将相关特征聚合到3D姿势估计或动作识别中。参见附录9中的更多示例。

Conclusion

我们探索了一种名为 TransPose 的模型，通过引入 Transformer 来进行人体姿态估计。注意力层使模型能够高效且明确地捕捉全局空间依赖关系。并且我们表明，通过 Transformer 实现的这种基于热图的定位与激活最大化有着相同的理念。凭借轻量级架构，TransPose 在 COCO 数据集上与最先进的基于 CNN 的同类模型表现相当，并且在 MPII 数据集上经过小规模训练成本的微调后取得了显著的改进。此外，我们验证了位置嵌入的重要性。我们的定性分析揭示了模型行为在层深度、关键点类型、训练模型和输入图像方面的变化，这也让我们对模型如何处理诸如遮挡等特殊情况有了更深入的了解。

查看全文

http://www.xdnf.cn/news/367579.html