当前位置：首页 > news >正文

实现高效、可靠的基于骨骼的人体姿态建模（第二章基于三维人体姿态回归的语义图卷积网络）

news 2025/9/3 17:04:44

第二章基于三维人体姿态回归的语义图卷积网络

在本章中，我们研究了学习图卷积网络（GCNs）的回归问题。目前的GCNs结构仅限于卷积滤波器的小接受域和每个节点的共享变换矩阵。为了解决这些限制，我们提出了语义图卷积网络（SemGCN），这是一种新的神经网络架构，用图结构的数据操作回归任务。SemGCN学习捕获语义信息，如局部和全局节点关系，这些信息在图中没有明确表示。这些语义关系可以通过端到端训练从地面真相中学习，而不需要额外的监督或手工制作的规则。我们进一步研究了将SemGCN应用于三维人体姿态回归。我们的公式是直观和充分的，因为二维和三维的人体姿态都可以表示为一个结构化的图，编码人体骨骼中关节之间的关系。我们进行了全面的研究来验证我们的方法。结果表明，SemGCN在少使用90%的参数时优于现有技术。

2.1 简介

卷积神经网络（CNNs）已经成功地解决了经典的计算机视觉问题，如图像分类[4,35,36]、目标检测[37,6,8,7]和生成[38,12,10,33]，其中输入图像具有网格状结构。然而，许多现实世界的任务，如分子结构、社会网络和三维网格，只能以不规则结构的形式表示，其中卷积神经网络的应用有限。

为了解决这一限制，图卷积网络（GCNs）[39,40,41]最近被引入，作为卷积神经网络的一种泛化，可以直接处理一般类别的图。当应用于三维网格变形[42,43]、图像字幕[44]、场景理解[45]和视频识别[46,47]时，它们已经取得了最先进的性能。这些工作利用GCNs来建模视觉对象的关系以进行分类。在本文中，我们研究了使用深度GCNs进行回归，这是计算机视觉的另一个核心问题。

然而，由于基线方法[40,43,47]的以下局限性，GCNs不能直接应用于回归问题。首先，为了处理图节点可能有不同数量的邻域的问题，卷积滤波器对所有节点共享相同的权值矩阵，这与cnn是不可比较的。其次，根据[40]的指导，通过限制滤波器在每个节点周围的一步邻域中操作，从而简化了以往的方法。由于这一公式，卷积核的接受域被限制为1，这严重损害了信息交换的效率，特别是当网络更深入时。

在这项工作中，我们提出了一种新的回归图神经网络架构，称为语义图卷积网络（SemGCN）来解决上述限制。具体地说，我们研究了学习编码在给定图中的语义信息，即节点的局部和全局关系，这在以前的工作中没有得到很好的研究。SemGCN不依赖于手工制作的约束[48,49,50]来分析特定应用程序的模式，因此可以很容易地推广到其他任务。

特别是，我们研究了二维到三维人体姿态的SemGCN回归。给定一个二维的人体姿态（和可选的相关图像）作为输入，我们的目标是预测其相应的三维关节在一定的坐标空间中的位置。使用SemGCN来表述这个问题是很直观的。二维和三维姿态都可以自然地用二维或三维坐标形式的规范骨架来表示，而SemGCN可以明确地利用它们的空间关系，这对理解人类行为[47]至关重要。

我们的工作有以下贡献。首先，提出一种改进的图卷积操作，称为语义图卷积(SemGConv)，源于cnn。其关键思想是学习图中隐含的边的通道权重，然后将它们与核矩阵相结合。这显著提高了图卷积的能力。其次，提出SemGCN，其中SemGConv和非局部[51]层是交错的。这种架构同时捕获了节点之间的局部和全局关系。提出了一个端到端学习框架，表明SemGCN还可以纳入图像内容等外部信息，以进一步提高3D人体姿态回归的性能。

我们的方法的有效性通过严格的消融研究的综合评估和与最先进的标准3D基准的比较来验证。我们的方法与人类3.6M[52]上最先进的技术的性能相匹配，仅使用2D联合坐标作为输入，并减少了90%的参数。同时，我们的方法在结合图像特征时优于现有的技术水平。此外，我们还展示了SemGCN的可视化结果，这从定性地证明了我们的方法的有效性。请注意，所提出的框架可以很容易地推广到其他回归任务，我们将其留给未来的工作。

2.2 相关工作

2.2.1 图卷积网络

将CNN推广到具有类图结构的输入中是深度学习领域的一个重要课题。在文献中，已经多次尝试使用递归神经网络来处理在图域中表示为有向无环图[53]的数据。在[39,40,41]中引入了GNN，作为处理任意图形数据的一种更常见的解决方案。在图上构造GCN的原理一般遵循两种流：光谱视角和空间视角。我们的工作属于第二个流[40,54,55]，其中卷积滤波器直接应用于图节点及其邻居。

最近关于计算机视觉的研究通过利用GCNs对视觉对象[45,44]或时间序列[46,47]之间的关系进行建模，取得了最先进的性能。本文遵循它们的精神，探索将GCNs应用于回归任务，特别是2D到3D人体姿态回归。

2.2.2 三维姿态估计

Lee和Chen [56]首先研究了从他们相应的二维投影推断三维关节。后来的方法要么利用最近邻来细化姿态推理[57,58]的结果，要么提取手工制作的特征[59,60,61]以供以后回归。其他方法创建了过完整的基，适用于将人类姿态表示为稀疏组合[62,63,64,65,66]。越来越多的研究集中在利用深度神经网络来寻找二维和三维关节位置之间的映射上。有几种算法直接从图像[67]中预测三维姿态，而另一些算法将二维热图与体积表示[68]、成对距离矩阵估计[69]或图像线索[70]相结合，用于三维人体姿态回归。

近年来，二维姿态信息对三维姿态估计至关重要。马丁内斯等人[28]介绍了一种简单而有效的方法，它纯粹基于二维检测来预测三维关键点。Fang等人，[49]通过姿态语法网络进一步扩展了这种方法。这些工作集中在二维到三维的姿态回归，这与本文的背景最相关。

其他方法使用合成数据集，这些数据集由地面真实[71,72]使人类模板模型变形生成，或引入除关节之外涉及高级知识[73,74,75]的损失函数。它们是对其他因素的补充。其余的工作目标是利用时间信息[76,57,77,78]进行三维姿态回归。它们超出了本文的范围，因为我们的目标是处理一个单一图像的二维姿态。然而，我们的方法可以很容易地扩展到序列输入，我们把它留给未来的工作。

2.3 语义图卷积网络

我们提出了一种新的图网络架构来处理涉及数据的一般回归任务，这些数据可以以图的形式表示。我们首先提供了GCN的背景和相关的基线方法。然后介绍了SemGCN的详细设计。

我们假设图数据具有相同的拓扑结构，如人类骨骼[48,79,80,47]、3D可变形模型[22,42,81]和引文网络[82]。其他在同一领域具有不同图结构的问题，如蛋白质相互作用[55]和量子化学[83]，都超出了本文的范围。这个假设使得学习图结构中隐含的先验成为可能，这激发了SemGCN。

2.3.1 A基线模型： ResGCN

我们将首先简要概述在[40]中提出的“vanilla”GCNs。让G = {V，E}表示一个图，其中V是K个节点的集合，E是边，而和分别表示节点i在第l次卷积之前和之后的卷积。基于图的卷积传播可以分两步应用于节点i。首先，节点表示由一个可学习的参数矩阵W∈l进行变换。其次，将这些转换后的节点表示从相邻节点j∈N (i)收集到节点i，然后是一个非线性函数（ReLU [84]）。如果节点表示被收集到一个矩阵中，则卷积运算可以写为：