基于MaskRCNN算法的遥感图像舰船目标旋转检测

2020-01-23 22:00 来源：互联网整理责任编辑：WB001 字体：大中小

摘要: 近年来，随着遥感图像分辨率的提高，遥感目标检测（例如飞机、船舶、油桶等检测）已成为研究热点。遥感目标检测具有广泛的应用，如军事调查、灾难救援和城市交通管理。针对舰船目标检测问题，本文创新性的利用旋转框标注的遥感数据集DOTA对Mask RCNN算法进行训练。在对后续的性能分析中，陆续引入群组归一化、权重标准化和可变卷积以提升对旋转框的检测效率。

关键词: Mask RCNN；目标检测；实例分割；旋转框检测

1 项目背景

随着遥感技术的快速发展，遥感图像的空间分辨率、光谱分辨率和辐射分辨率越来越高，这其中包含着丰富的信息。各种不同成像方式、不同空间分辨率的遥感平台得以涌现，产生了大量的遥感图像。遥感在军事和民用领域都有着重要的应用。对于民用领域，遥感图像可用于气象预报、土地规划、环境检测等方面，为国民经济的发展做出了重要的贡献。在军事方面，可以使用遥感图像战略侦察、军事测绘、海洋检测等，可以在不受国界和地域限制的情况下获取各种军事目标情报信息。

目前对于遥感图像中舰船目标的识别占据着重要的地位，由于国家海洋权益越来越受到重视，如何从海量的遥感数据中快速、准确识别舰船成为一个迫切的应用需求。所以本文采用深度学习的方法对遥感图像舰船目标识别，一方面可以替代人们从事重复繁琐的工作，使人们从繁重的遥感图像解译工作中解脱出来；另一方面建立一种端到端的模型结构，不仅可以提高遥感数据的处理速率，而且达到较高的识别准确率。

2 项目具体方案

2.1 数据集的预处理与转换

本次实验选用的是DOTA[7]数据集，该数据集共有2806张图片，来自不同的传感器和平台，每一张尺度约为（800~4000），目标涵盖了各种各样的规模，位置，形状。这些图像被遥感领域的专家注释并被分为15个目标类别，包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池，注释后的完整数据集包括188282个实例，每一个被一个任意的四边形标记。

由于DOTA数据集的尺寸非常大，这样的图片输入网络进行训练时，计算资源将不能承载，所以就需要对DOTA数据集进行裁剪。裁剪方式主要分为两个步骤，第一，使用1024×1024窗口在宽幅图片上滑动进行裁剪，窗口每次的步进幅度1000，但是这种裁剪方式可能会导致物体正处于切割处，所以做出如下定义，物体剩余的面积大于或等于原始面积0.7时保留该物体的标注信息，否则对其丢弃处理；第二，对宽幅图像进行放缩，缩放比例分别为0.5，1，2。

Mask RCNN训练时需要三种标注信息，类别（category），包围框（bounding box），掩模（segmentation），其中包围框为非旋转框。DOTA数据集只存在类别与旋转框，标注形式为（x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4）。DOTA数据集中目标的尺寸范围比较大，舰船面积小至100，大至1000000。切分后的图像尺寸仍然较大，图像中经常性的存在密集排列的物体，所以基于DOTA数据集的识别非常具有挑战性。对舰船目标而言，轮廓信息与旋转框相差无几，所以可以近似将其旋转框等价于掩模标注信息，所以本文Mask RCNN的主要研究对象为舰船目标。对于非旋转框，我们通过旋转框的转换，可以得到非旋转的信息，转换方式如下：

（1）对所有x,y坐标求取

（2）将两两组合，构成四对坐标；

（3）所求的四对坐标即为非旋转信息。

图1为DOTA数据集对舰船目标旋转框的标注，以及通过上述的方式得到非旋转框的标注。

2.2 Mask RCNN算法

Mask RCNN[1]基于Faster RCNN网络架构做出了改进，添加了用于实例分割的分支，该分支与已有的包围框回归分支、分类分支平行。实例分割分支将一个小型的FCN网络应用于所有RoI，预测像素级的分割掩模。Mask RCNN网络相对于Faster RCNN网络主要做出了两处改变，第一，使用RoI Align代替RoI Pooling，使得特征图与原始图片的对齐一致性增强，改善分割的精度；第二，损失函数加入实例分割损失。网络的主要框架图2所示。