视频中的快速人体姿态跟踪方法研究文献综述

 2022-11-22 16:02:36

基于骨架的人体动作识别主要包括骨架建模和数据表示两种识别模式,图卷积神经网络为骨架建模、自适应有向图卷积和自适应视角有向图卷积通过自适应学习骨架图结构关系、虚拟最佳动作识别视角为数据表示方式,我们通过骨架建模与数据表示方式并举,实现 3D人体骨架动作识别。图卷积神经网络是全文的算法基础,动作识别是本文提出算法的应用领域,下面将重点介绍图卷积神经网络和人体动作识别的研究进展。

1.图卷积神经网络研究进展

神经网络的发展推动了对模式识别和数据挖掘的重新研究。计算机视觉,自然语言处理和时间序列识别等机器学习任务,曾经高度依赖于手工特征提取与选择来获取最优的判别性特征。随着卷积神经网络,递归神经网络和生成对抗网络等各种端到端深度学习技术的深入发展与应用,模式识别和数据挖掘等领域得到了快速发展。深度学习在许多领域的成功部分归因于快速发展的计算资源,大量欧几里得数据如图像,文本和视频等得到了广泛应用。以图像数据为例,我们可以将图像表示为欧几里得空间中的规则网格,卷积神经网络具有提取多尺度局部空间特征并聚合局部和全局特征的能力,提取与整体数据共享的局部判别性特征,以实现图像分类、目标检测以及语义分割等任务。

尽管深度学习已经在欧几里得数据领域中广泛应用,但非欧几里得域的静态或动态图数据对现有机器学习算法提出了重大挑战。首先在不规则领域,与图像不同,音频和文本具备规则网格数据结构,而图则属于不规则领域,这使得如卷积运算等基础数学运算无法泛化至图。其次图具备多变的任务,包括节点问题(如节点分类和连接预测)和图问题(如图分类和图生成)。多变的任务需要不同的模型架构来解决特定的问题。最后在大数据时代,实际的图数据很容易扩展成数百万级节点和网络边,如社交网络或电商网络。因此,如何设计可扩展模型(最好具备线性时间复杂度)以及并行化计算边和节点成为关键的问题[1]。最近,越来越多的研究开始将深度学习方法应用到图数据领域。受到深度学习领域进展的驱动,研究人员在设计图神经网络的架构时借鉴了包括卷积网络等其他深度学习方法的思想。图卷积神经网络(GCN)概括了从网格数据到图数据的卷积操作。主要思想是通过汇总节点自身的特征和邻居的特征

来生成节点的表示形式,其中。GCN 的动机来自卷积神经网络(CNN)和图拓扑结构

的组合。CNN 具有提取多尺度局部空间特征并聚合局部和全局特征的能力,以便在高层中构建高度表达的表示。局部连接,共享权重和多层建模是 CNN 的重要特征,它们同样适用于解决图域问题,因为图是最典型的局部连接结构。此外,图是最典型的本地连接结构,共享权重降低了计算成本,多层结构是通过捕获各种大小的特征来处理分层模式的关键[2]。因此,将深度学习模型应用于人体动作识别具有研究的合理性。但是,常规卷积要求每个节点的相邻节点数保持相同且有序。但是在通用图中如人体骨架节点图,相邻节点的数量通常因不同节点而不同,并且在相邻节点之间没有给出

排名信息。因此,规则网格的标准卷积显然不适用于具有非欧式域数据的通用图,但

是最近的一些研究尝试将卷积运算应用于通用图[3]。如图 1-1所示拓扑结构图输入,经

过第一层卷积对每个结点的邻居都进行一次卷积操作,并用卷积的结果更新该结点;然后经过激活函数如 ReLU,然后再经过一层卷积层与激活函数;反复上述过

程,到层数达到预期深度。与图神经网络(GNN)类似,图卷积神经网络也有一个局、

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。