物体的检测与跟踪目前在计算机视觉领域是十分前沿的研究方向,其可广泛应用于重要会议安保,军事防御,区域警戒等多种应用场景。目前,在物体检测与跟踪领域最具发展前景的研究热点是基于深度特征的检测与跟踪模型的设计,因此本设计基于深度特征和传统特征相融合的方式,对单目标场景下,改进相关算法,并实现了具有物体检测、目标跟踪、兼具性能测试和关键测试结果文件保存功能的物体检测与跟踪系统。并最终通过跟踪数据集对相关算法进行评测。
关键词:目标检测,目标跟踪,图像处理,特征融合;
1.1 课题研究前言与背景
目标跟踪在计算机视觉领域,有着重要的地位,是一项多学科交叉技术,融合了机器学习,计算机视觉,模式识别等学科的技术,并在很多领域得到广泛应用,包括自动驾驶、智能视频监控、人机的交互等。除此之外,目标跟踪在一些新兴领域,如智能交通系统、精确制导系统、智能医学诊疗等,有着十分重要的应用价值,尤其是在视频监控领域与军事领域应用最为广泛,这些场景下都需要对特定目标物体进行建模跟踪,分析其行为轨迹、制定解决方案等。
一个物体检测与跟踪系统, 给出视频或摄像头视频输入,系统能检测到视频中出现的物体,给出检测框和类别,并能够根据初始检测框进行连续的物体跟踪。跟踪结束后保存系统运行过程中产生的有用信息。同时系统应当能够连续使用,即在不重启系统的情况下继续进行处理其他输入,以保障良好的人机交互性。
1.2 目标跟踪算法概述
目标跟踪领域近年来在持续发展,算法的性能也在逐渐提升。目标跟踪的任务是,在给定视频序列第一帧中目标物体的初始状态后,对后续视频帧中目标的位置进行预测,然而一些固有因素依然会影响跟踪的效果,如遮挡、尺度变化、光照变化、背景干扰等。
图1-1中列出了几种影响跟踪效果的因素,这就要求跟踪器具有较高的辨别能力。过去几十年,目标跟踪算法的研究在计算机视觉领域十分活跃,从最早的粒子滤波框架过渡到相关滤波,跟踪算法的性能逐渐提升,随着近年来机器学习算法的引入,跟踪算法呈现百花齐放的姿态,性能和鲁棒性都获得显著提升。深度学习技术的引用,使得算法精度提升到新的高度。2015年至今,是深度学习技术高速发展的时期,深度学习技术也被应用到计算机视觉的各个领域。深度学习在目标跟踪领域的应用,最初形式是将深度神经网络提取到的特征替换人工提取特征,应用到相关滤波的跟踪框架中,如deepSDRCT、C-COT、ECO等算法,逐步加深了对深度特征的应用。深度网络提取出的目标特征,要优于传统的手工提取的如HOG或SIFT等特征,但是也带来了计算量的增加。但是深度特征包含更多的语义信息,浅层特征包含更多的边缘信息,所以采用将深层,浅层特征相融合的深度学习框架进行算法设计,使得算法效果有较大的提升。
1.3 目标检测算法概述
目标检测传统方法方面主要是基于滑动窗口的,其主要的思路为:针对输入的图片,设计不同尺度的滑动窗口,对整个图片进行暴力搜索,由此得出若干个候选区域,对每一个候选区域进行特征提取交付到分类器中,分类器一般采用SVM、AdaBoost和Decision Tree等;最终得到物体分类结果和物体在图像中所处位置坐标。
目前基于深度学习的物体检测方法主要可以分成两类:即一阶段方法和两阶段方法,顾名思义,一阶段的主要思想是在需要进行检测处理的图片上设置一系列的基本框,随后直接将这些基本框输入到神经网络中进行检测和分类得到最终结果。而两阶段是在一阶段第一次检测和分类并得到候选框的基础上,对候选框进行特征提取后再次进行分类和检测,得到最终结果。其中一阶段检测算法有SSD,YOLO算法族;二阶段检测算法有R-CNN,Fast R-CNN,Faster R-CNN等。一阶段算法相对于二阶段算法速度更快,但二阶段多了再检测和分类的步骤,因而精度更高。
2.1基于特征融合的跟踪算法设计
2.1.1跟踪算法主体框架设计
目标跟踪研究任务中,先验信息只有第一帧目标物体真实的bounding box,即对于整个跟踪序列来说,算法的输入只有一个四元组(x, y, w, h),其中,x, y是物体在图片中的坐标值,w, h是目标物体的宽度与高度。算法的目的是根据此元组对后续视频帧中的目标物体位置进行估算预测。本系统基于MDNet提出一种深度学习框架,如图所示。
相关阅读
赞助商广告