{title}{title}
南 京 理 工 大 学
毕业设计(论文)开题报告
学 生 姓 名: |
徐琳皓 |
学 号: |
917106840740 |
专 业: |
智能科学与技术 |
||
设计(论文)题目: |
面向开放环境的三维 |
||
人体姿态与形状估计 |
|||
指 导 教 师: |
赵林 |
2021 年 1 月 4 日
一、研究背景
过去二十多年里,人体姿态估计,一直都是计算机视觉的研究重点。促使人体姿态估计成为研究重点的主要原因是电子设备的迅速发展以及由它所产生的巨大的市场。近些年,智能手机、平板电脑、数码照相机等数码产品逐渐融入人们的日常生活,图片和视频数据无时无刻的在产生,而这些数据又是人类日常生活及行为的主要信息来源,它们蕴含了大量的信息,因此如何处理这些信息和理解这些数据,在未来愈发的重要,将会为人类社会的发展带来深刻的影响。其中人体姿态估计应用主要包括如下几个方面:
1.人体姿态捕捉
人体姿态捕捉主要应用于医疗、动画制作等领域。精准的人体姿态捕捉,可以帮助医生更好的对患者进行治疗,也可以用来驱动动画角色,减轻动画设计师的负担。
2.高级人机交互
人们都希望机器能够理解人类的活动并与人类进行交互,这是人们一直以来的科技追求目标。随着科学技术的迅速发展,人类生活逐渐无法离开各式各样的机器设备,比如智能手机,平板电脑等,但是传统的鼠标和键盘设备还是主要的交互方式。
Kinect技术,是一种3D感知体态的摄像机,它具有即时语音识别、麦克风输入、辨识影像等功能。人们可以在游戏中开车、打球等等。因此可以预见,在未来,当人体姿态估计技术成熟时,人机交互所进行的革命,必然被人们迅速接受,并且使人们对于机器的控制更加容易和方便。
3.智能监控
随着人们生活水平的逐渐提高,人们的生命安全和财产安全愈发重要,而视频监控则是维护人们生命安全和财产安全的主要手段之一。
二、国内外现状
人体姿态估计是计算机视觉中一个很基础的问题。从名字的角度来看,可以理解为对“人体”的姿态(关键点,比如头,左手,右脚等)的位置估计。一般我们可以这个问题再具体细分成4个方面:
1.单人姿态估计(Single-Person Skeleton Estimation)
给定一幅图像,恢复其中人体关节点位置,例如头部,左手,右膝等。
目前的数据集有:LSP、FLIC、MPII、MSCOCO、AI Challenge、PoseTrack等,其中MPII是目前最为常用的。
2.多人姿态估计(Multi-person Pose Estimation)
一般单人姿态估计的算法会被应用于多人姿态估计。多人姿态估计的输入是一张整图,可能包含多个行人,目的是需要把图片中所有行人的关键点都能正确的做出估计。一般有两种做法,分别是top-down以及bottom-up的方法。
top-down:先找到图片中的所有人,然后对每个人做姿态估计,寻找每个人的关键点。
bottom-up:与top-down思路正好相反,先找到图片中所有的关键点,然后把这些关键点连接起来,组装成为人。
目前主要测试集为:COCO,CrowdPose。
3.人体姿态跟踪(Video Pose Tracking)
如果把姿态估计往视频中扩展的话,就有了人体姿态跟踪的任务。主要是针对视频场景中的每一个行人,进行人体以及每个关键点的跟踪。这个问题本身其实难度是很大的。相比行人跟踪来讲,人体关键点在视频中的temporal motion可能比较大,比如一个行走的行人,手跟脚会不停的摆动,所以跟踪难度会比跟踪人体框大。目前主要有的数据集是PoseTrack。
4.3D人体姿态估计(3D Skeleton Estimation)
如果把人体姿态往3D方面进行扩展,输入RGB图像,输出3D的人体关键点的话,就是3D人体姿态估计。这个有一个经典的数据集Human3.6M。最近,除了输出3D的关键点外,有一些工作开始研究3D的shape,比如数据集DensePose。长线来讲,这个是非常有价值的研究方向。
过去:
从算法的角度分析,可以大致分为两类:
1.直接通过一个全局feature,把姿态估计问题当成分类或者回归问题直接求解,但这类方法主要问题在于精度一般,一般适用于背景干净的图片。
2.基于一个graphical model,比如常用的pictorial structure model。一般包含unary term,是指对单个part进行feature的representation,单个part的位置往往可以使用DPM (Deformable Part-based model)来获得。 同时需要考虑pair-wise关系来优化关键点之间的关联。
现在:
从2012年AlexNet开始,深度学习开始快速发展,从最早的图片分类问题,到后来的检测,分割问题。在2014年,第一次成功引入了CNN来解决单人姿态估计的问题。因为当时的时代背景,整体网络结构比较简单,同时也沿用了传统骨架的思路。首先是通过slide-window的方式,来对每个patch进行分类,找到相应的人体关键点。因为直接sliding-window少了很多context信息。所以在pipeline上面加上了一个post-processing的步骤,主要是希望能抑制部分FP,具体实现方式是类似一个空间位置的模型。
主要模型有:Convolutional Pose Machine (CPM)、Hourglass、OpenPose、Hourglass Associative Embedding、CPN、MSPN、HRNet、Simple Baselines、3D Skeleton等
- 文献综述
自2014年引入MPII数据集,人体姿态估计的数据集从K级提高到了W级,对于深度学习来说,K级的数据集还是太少,而MPII的引入加大了深度学习的数据集,这让深度学习无论是从深度还是难度又或者是多样性的角度来说,都较曾经有了较大的提升。
2014年产生了具有特征集成的尺度自适应核相关滤波器跟踪器[6],该方法提出了一个基于相关滤波器框架的有效跟踪方法,针对传统的核相关滤波器样本尺寸固定的问题,提出了尺度自适应的想法,并融合了Hog和color naming的特征增强了跟踪器的自适应综合性能。
其次还有带有内核化相关滤波器的高速跟踪[7]方法,在这篇文章中作者提出了一种比correlation filter更加强大的tracking方法。作者的核心思想就是:采用判别式的tracking,需要区分目标和surrounding 环境,需要大量的训练样本,这些样本之间存在着大量的冗余,于是作者采用创新的circulant matrix来生成训练样本,这样的好处就是得到的数据矩阵是circulant,于是可以利用DFT(离散傅里叶变化)对角化,从而减少计算量。同时,作者发现用这种样本训练的linear regression 等价于correlation filter,大大加快tracking速度。同时作者考虑核regression的情况,提出了Kernelized correlation filter(KCF)以及采用线性核的Dual correlation filter。
而自2016年之后,深度学习迎来了发展的黄金期,其中较为重要的两个方法一个是CPM(Convolutional Pose Machine)[9],另一个则是Hourglass[2]。
CPM:使用CNN进行人体姿态估计,其主要方法是使用顺序化卷积架构来表达空间信息和纹理信息。顺序化卷积架构分为多个阶段,每一个阶段都有监督训练的部分,前一部分的输出作为后一部分的输入,既保证了精度,又保证了前后之间的远近关系。
Hourglass:漏斗网络的设计主要源于the need to capture information at every scale即多尺度信息的捕获,局部信息对于检测人脸和手是至关重要的,最终的姿态估计则需要对整个人体的一致性理解 coherent understanding。对于人的方向、肢体的排列、相邻关节的关系等信息需要从图像中不同的尺度去衡量和解析。
2018年又产生了用于人体姿态估计和跟踪的简单基准方法[3],该方法设计了非常简单的CNN模型SimplePose,实现top-down模式的人体姿态估计,其中如何生成高分辨率特征图是人体姿态估计的关键,SimplePose采用了Deconv来扩大特征图的分辨率,与Hourglass和CPN相比,该网络较为简洁直观,其结构就是在ResNet后加了几层Deconvolution来直接生成热力图。
除此之外,还有获取定位置信度以进行精确的对象检测[5]方法,该方法提出了IOU-NET,指出了定位置信度和分类置信度不匹配的问题,并且把定位问题从基于回归方式改为了基于优化的方式。
2019年,用于人体姿势估计的深度高分辨率学习方法[1],该方法提出了High-Resoultion Net(HRNet),该模型的主要特点是,在整个过程之中,始终是保持高分辨率特征图,这与之前的主流方法有很大的区别。此方法提出之前,大部分都是采用(Hourglass/CPN/Simple Baseline/MSPN等),将高分辨率下采样至低分辨率,再从低分辨率恢复为高分辨率。
2019年还提出了Mask scoring r-cnn[4],该方法提出了包含一个网络块的Mask Score R-CNN来学习预测实例Mask的质量。提出的网络块将实例特征和相应的预测Mask结合起来,对Mask IoU进行回溯。Mask Score 策略校正Mask质量和Mask Score 之间的偏差,通过在COCO AP评估过程中优先考虑更准确的Mask预测,提高实例分割性能。
2019年提出的Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop,该方法主要是将基于迭代优化的方法和基于网络回归的方法进行结合。网络预测的结果作为优化方法的初始值,加快迭代优化的速度和准确性;迭代优化的结果可以作为网络的一个强先验。两种方法相互辅助,使整个方法有一种自我提升的能力,称之为SPIN(SPML Optimization IN the Loop)。(主要采取方法)
- 实现方法
SMPL模型:
SMPL人体模型提供一个函数M(theta;,beta;),该函数以姿态参数theta;和形状参数beta;作为输入,并返回身体网Misin;RNtimes;3,其中N = 6890个顶点。可以将模型的人体关节X定义为网格顶点的线性组合。可以为该任务预训练线性回归器W,因此对于主要的k个关节,我们定义主体关节Xisin;Rktimes;3 = WM。
回归网络:
对于回归模型,使用深度神经网络。新图像的前向通过提供了模型参数
reg={theta;reg,beta;reg}和相机参数Pi;reg的回归预测。这些参数允许估计关节的二维投影Jreg =Pi;reg(Xreg)。我们的预测允许我们生成与回归参数Mreg = M(theta;reg,beta;reg)以及关节及其重投影Jreg相对应的网格。在这种情况下,将使用关节上的重投影损失来提供公共监督:
(3.1)
Jgt是地面真实2D关节。
优化程序:
迭代拟合例程遵循Bogo等人的SMPLify工作[13]。SMPLify尝试使用基于优化的方法将SMPL模型拟合到一组2D关键点。 它最小化的目标函数包括一个重投影损失项以及多个姿势和形状先验。更具体地说,总目标是:
(3.2)
其中beta;和theta;是SMPL模型的参数, Jest检测的2D关节,K设置摄像机参数。第一项EJ(beta;,theta;;K,Jest)是Jest与投影SMPL关节之间的加权二维距离的惩罚。Etheta;(theta;)是先验训练的高斯姿势的混合体,并根据标记数据拟合形状;Ealpha;(theta;)是先验惩罚肘部和膝盖的自然旋转的姿势,而Ebeta;(beta;)是对形状系数的二次惩罚。
SPIN:
SPIN基于前两个范例可以形成紧密的协作,以训练用于人体姿势和形状估计的深度回归器。在典型的训练循环中,通过网络转发图像,提供回归参数reg。使用回归参数来初始化优化程序。如果我们从平均姿势作为初始值开始,这种优化通常会非常缓慢。但是,只要给出合理的初始估算,就可以大大加快估算速度。这使我们能够在训练循环中采用拟合程序。现用opt={theta;opt,beta;opt}表示由迭代拟合产生的模型参数集。这些值经过显式优化,以使生成的形状Mopt = M(theta;opt,beta;opt)和重新投影的关节Jopt与2D关键点对齐。给定这些优化值,我们可以直接在参数级别上监督网络功能f:
(3.3)
和/或网格级别:
(3.4)
由于优化程序仅使用2D关节进行拟合,并且网络主要依赖于此程序进行必要的基于模型的监督,因此即使在没有带有相3D地面真相的图像可用于训练的情况下,该方法也适用。
图3.3 SPIN的原理图
SPIN在基于优化的方法和基于回归的方法之间建立了紧密的协作。来自网络的合理回归估计值正确初始化了优化,从而导致了更好的优化。同样,通过迭代拟合优化的值可以充当监督,以更好地训练网络。 这两个过程继续了这种协作,形成了一个自我完善的循环。
五、引用文献
[1].Sun K, Xiao B, Liu D, et al. Deep High-Resolution Representation Learning for Human Pose Estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5693-5703.
[2].Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[C]//European conference on computer vision. Springer, Cham, 2016: 483-499.
[3].Xiao B, Wu H, Wei Y. Simple baselines for human pose estimation and tracking[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 466-481.
[4].Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 6409-6418.
[5]. Jiang B, Luo R, Mao J, et al. Acquisition of localization confidence for accurate object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 784-799.
[6]. Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration[C]//European conference on computer vision. Springer, Cham, 2014: 254-265.
[7].Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 37(3): 583-596.
[8].Wang Q, Zhang L, Bertinetto L, et al. Fast online object tracking and segmentation: A unifying approach[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1328-1338.
[9].Wei, Shih-En amp; Ramakrishna, Varun amp; Kanade, Takeo amp; Sheikh, Yaser. Convolutional Pose Machines. In CVPR,2016.
[10].Junior JCSJ, Musse SR, Jung CR. Crowd analysis using computer vision techniques. IEEE Signal Processing Magazine, 2010,27(5):66-77.
[11].Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In CVPR, 2017.
[12].Georgios Pavlakos, Luyang Zhu, Xiaowei Zhou, and Kostas Daniilidis. Learning to estimate 3D human pose and shape from a single color image. In CVPR, 2018.
[13].Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter V Gehler, and Bernt Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. In CVPR, 2016.
[14].Nikos Kolotouros*1 , Georgios Pavlakos*1 , Michael J. Black2 , Kostas Daniilidis1 1 University of Pennsylvania 2 Max Planck Institute for Intelligent Systems.Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop.In ICCV 2019.
[15].Junting Dong1,*, Qing Shuai1,*, Yuanqing Zhang1 , Xian Liu1, Xiaowei Zhou1 , and Hujun Bao2,1 1State Key Lab of CADamp;CG, Zhejiang University, 2Zhejiang Lab.Motion Capture from Internet Videos.ECCV, 2020.
资料编号:[544918]
南 京 理 工 大 学
毕业设计(论文)开题报告
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。