摘要:依赖于“大数据”技术与高性能处理器的蓬勃发展,深度学习以其强大
的鲁棒性和有效性成为了计算机视觉、自然语言处理等人工智能分支领
域中占据主导地位的研究方法。人体关键点检测是计算机视觉中一个极
具挑战性的研究。可用于:动作识别,异常行为检测,安防等。本文旨
在提出一种基于深度学习的模型,解决人体关键点检测任务中存在的诸
多问题,提升检测效果。该任务目前主要存在人体关键点尺度差异性问
题。本文引入目标检测领域中流行的特征金字塔网络(Feature pyramid
network),通过在多尺度的特征图上提取特征并将高层语义特征与底层
图像特征融合的方式解决此问题。本文在改进后设置了对比实验以验证
假设。最终提出了一个新模型——特征金字塔注意力沙漏模型,其在
MPII和LSP人体关键点检测数据集上取得了目前最好的检测效果。
关键词:人体关键点检测;特征金字塔网络;注意力模型
1 课题背景与研究意义
1.1 课题背景
21世纪是大数据的时代,云计算的出现、移动设备的普及,使得人们在举手投足间就会产生大量的数据。这些数据的形式多种多样,可以是微信中的语音信息,可以是微博中的文字信息,也可以是淘宝上的订单信息。这些数据体量巨大但是结构复杂,如何高效的利用这些数据成为摆在研究人员面前的一个重要问题。与此同时,以CPU、GPU为代表的高性能处理器的迅猛发展也为高效利用这些数据提供了充足的动力。
人体关键点检测是计算机视觉中一个具有重要意义的任务,2014年以前,研究者解决该任务的方法主要是使用SIFT,HOG等特征算子提取特征,结合图结构模型来检测关节点位置。随着深度学习与计算机视觉诸多任务结合并取得显著成果,研究者开始尝试将其与人体关键点检测任务结合。深度学习可以通过训练得到复杂的映射关系,从而提取更复杂的高阶特征代替SIFT,HOG等人工特征。深度学习具有更强的鲁棒性和表达能力,在物体识别,目标检测领域所取得的成果已经印证了这些优点。所以深度学习恰恰可以解决上述两个缺点。本文将分析基于深度学习的人体关键点检测算法的发展,并对其进行改进。
1.2 人体关键点检测简介及意义
人体关键点检测也称人体姿态估计。如图1-1所示,人体姿态估计的任务是要在给定的图片中定位人体的身体关键部件,例如头部,颈部,肩部,手部等。在不同数据集上,需要检测的具体部位不同。例如,本文中使用的MPII数据集上定义的关键点共有16个。它是更高级别计算机视觉任务的基础。其应用场景主要有:
(1)人类行为识别:人类行为识别是指在给定的图片或者图片序列中识别出人体的动作意图。如图1-2所示,给定一张图片要求计算机识别出图中人类的动作,上面一行得到的结果为走路,下面一行得到的结果为打高尔夫。人类行为识别是计算机视觉领域一个极其重要的研究方向。其被广泛的应用于监控,娱乐,人机交互,图像和视频搜索等领域。
(2)人机交互:人机交互是指设计一种计算机和用户进行信息传递的接口程序。人机交互处于计算机科学,行为科学,设计,媒体研究的交叉点。一个常见的例子是:研究人员可以通过给计算机安装摄像头的方式使其可以获取人类用户的图像信息,再通过对图像信息的识别使得计算机理解用户的意图,从而达到交互的目的。
(3)服装解析:服装解析是指在一张图像中解析出人体上不同的服装,如图1-3所示。解析服装的视觉算法具有各种各样的潜在应用价值,更好的理解图像,人物服饰识别,或基于内容的图像检索等。但是,由于人体姿态的复杂性,解析服饰的任务并不容易。
2 基于特征金字塔网络的改进方法
针对上一章提出的关于人体关键点检测中尺度差异性的问题,本章通过将特征金字塔网络(Feature pyramid network, FPN)融合到堆叠沙漏模型解决这一问题。特征金字塔网络在不同尺寸的特征图上提取特征,然后又将不同尺寸的特征图进行融合,可以提取到多尺度的特征,从而解决之前提到的尺度差异性问题。本章首先详细描述尺度差异性问题,并分析其原因。然后,给出具体模型设计细节和实验结果。
2.1 人体关键点尺度差异性问题
人体关键点检测任务中一个突出的问题就是由于视角不同和人体姿态的复杂而引起的关键点尺度差异性问题。具体如图2-1所示。
赞助商广告