Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Saturday 31.10.2020 at 7:00 AM CET
Settings

Settings

Goto Application

1. CN107423760 - Depth learning target detection method based on pre-segmentation and regression

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ ZH ]
基于预分割和回归的深度学习目标检测方法


技术领域
本发明属于图像信息处理领域,具体的说是一种深度学习目标检测方法,可用于对目标的精确实时定位和分类。
背景技术
目标检测是计算机视觉领域中一个富有挑战性的课题,其核心任务是在静态图片或者视频中使用某种目标识别算法和搜索策略,获取特定目标在图像或视频中的位置和类别。目前目标检测的方法主要分为基于特征及机器学习的目标检测算法和基于深度学习的检测方法。其中基于特征及机器学习的方法是通过对目标进行区域选择,特征提取、分类器分类等过程实现目标检测。区域选择是通过滑动窗口对整幅图像进行遍历选出可能存在目标的边框,但时间复杂度太高,冗余窗口过多,直接影响了特征提取和分类的速度和性能。特征提取中常用的特征有Haar小波特征、HOG特征、SIFT特征和混合特征等,由于图像的光照条件,背景和目标的形态等的多样性,对特征的鲁棒性要求比较高,提取的特征好坏直接影响目标分类的精度。传统的分类器主要包括支持向量机SVM和迭代器Adaboost。由于是针对某个特征的识别任务,模型泛化能力差,很难在实际应用中对目标精准识别。从2014年开始,基于深度学习的目标检测算法取得了重大的突破,克服了传统的目标检测算法中的缺点。目前主流的基于深度学习的目标检测算法主要分为两类:基于候选区域的深度学习目标检测算法和基于回归的深度学习目标检测算法。基于候选区域的目标检测算法的代表是R Girshick提出的R-CNN算法,该算法的检测框架结合候选区域和卷积神经网络CNN进行分类。由R-CNN逐步优化提速产生了SPP-NET,Fast R-CNN和Faster R-CNN,目标检测的精度和速度都有很大的提高,但由于此类方法进行目标检测时分为定位和分类两个步骤且定位耗时太长,因此不能实时地进行目标检测。基于回归方法的深度学习目标检测算法代表性的有YOLO和SSD,这类算法主要是通过回归法直接从待检测图像中预测目标的位置和类别,这种方法使得目标检测速度大大加快,可以达到实时目标检测的要求,但对输入图像的大小有严格要求并且目标位置定位较差,无法检测图像中的小目标。YOLO和SSD300分别要求输入图像尺寸为448*448和300*300,缩小待检测图像到特定尺寸,会丢失图像细节,导致无法检测到小目标。
发明内容
本发明的目的在于针对上述已有的技术问题,提出一种基于预分割和回归的深度学习的目标检测方法,以保存图像细节,提高对小目标的实时检测性能。
本发明的技术思路是通过在输入图像中进行四叉树预分割得到感兴趣区域;通过多尺度卷积层提取感兴趣区域的多尺度特征图;通过卷积滤波器预测目标类别和预测边框的位置;通过非极大值抑制得到最终的目标类别和目标位置坐标。
根据上述思路,本发明的实现方案包括如下:
(1)根据四叉树算法和卷积神经网络VGG-16建立基于预分割和回归的深度学习网络模型;
(2)在图像训练集上训练构建好的网络模型;
(2a)使用图像集PASCAL VOC2007和PASCAL VOC2012的训练数据集作为训练集,用图像集PASCAL VOC2007的测试数据集作为测试集;
(2b)对训练集中标注图像的标注边框和网络模型中生成的特征图上的默认边框进行匹配;
(2c)构造网络模型的目标损失函数L(x,l,c,g);
其中,x为特征图上的默认边框,l为预测框,g为标注边框,c为特征图上的默认边框在每个类别上的类别得分集合,L conf (x,c)表示特征图上的默认边框在类别得分集合c上的softmax分类损失函数,L loc (x,l,g)表示定位损失函数,N表示与标注边框匹配的默认边框数,参数α通过交叉验证设置为1;
(2d)采用梯度下降法最小化损失函数同时对网络中的权重参数逐层反向调节,得到训练好的网络模型;
(3)将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中的目标类别和位置坐标。
本发明具有如下优点:
1)本发明由于对待检测图像进行感兴趣区域预分割,避免了因图片过大而无法定位小目标的问题;
2)本发明中由于仅对感兴趣区域进行特征提取,而非对整个图像进行特征提取,降低了特征提取时的计算量和计算时间。
3)本发明由于使用卷积层提取感兴趣区域的特征,其特征具有位移、旋转和缩放不变性,避免了人工设计鲁棒性差的问题,更适合目标检测。
4)本发明通过卷积滤波器对特征图进行预测,得到一系列的目标类别的置信度得分和目标的位置坐标,提高了计算效率。
附图说明
图1是本发明的实现流程图;
图2是本发明中构建的网络结构图;
图3是本发明中实验时使用的待检测图像;
图4是本发明中使用四叉树算法提取的感兴趣区域图;
图5是用本发明对待检测图像进行目标检测的仿真结果图。
具体实施方式
参照图1,本发明的实现步骤如下:
步骤1,建立基于预分割和回归的深度学习网络模型。
当前基于深度学习的目标检测网络分为两大类:一类是基于候选区域的深度学习目标检测网络,例如R-CNN、Fast R-CNN和Faster R-CNN;另一类是基于回归的深度学习目标检测网络,例如YOLO和SSD,本发明提出基于预分割和回归的深度学习目标检测方法。目前提取感兴趣区域的方法包括:基于阈值的感兴趣区域提取方法,基于边缘提取的感兴趣区域提取方法,基于四叉树分割的感兴趣区域提取方法,基于区域生长的感兴趣区域提取方法等,本发明中使用四叉树分割的感兴趣区域提取法构建预分割网络层。
参照图2,本步骤的具体实现如下
(1a)利用四叉树算法构建感兴趣区域预分割网络层;
(1a1)设定四叉树算法中的分割阈值为M,最大分割次数为Q=1024,将待检测图像按照水平方向和垂直方向分成四个子区域,其中0<M<255;
(1a2)计算分割后的每个子区域的平均灰度值,把平均灰度值大于M的子区域继续分割为四个子区域,直到子区域的平均灰度值小于M或者分割次数达到Q时停止分割,并记录其位置信息;
(1a3)根据子区域的位置信息,找到位于待检测图像左上角和右下角的最小子区域的坐标,即为待检测图像中的感兴趣区域的位置;
(1b)根据卷积神经网络VGG-16建立目标检测网络层;
目前用于目标识别的卷积神经网络有AlexNet、VGG-16、GoogLeNet、ResNet等,本发明中使用卷积神经网络VGG-16建立目标检测网络,其实现步骤如下:
(1b1)使用卷积神经网络VGG-16中的阶段stage1-stage5作为目标检测网络层的基础卷积层,并将其中的全连接层fc6、fc7替换为两个卷积层conv6、conv7,同时添加四个新卷积层conv8、conv9、conv10、conv11作为目标检测网络层的辅助卷积层,新添加的四个卷积层的尺寸分别为10×10,5×5,3×3,1×1;
(1b2)使用一系列的卷积滤波器构成目标检测网络的检测层;
(1b3)使用基于候选区域和卷积神经网络的目标检测网络R-CNN中的非极大值抑制层构成目标检测网络层的输出层。
步骤2,在图像训练集上训练构建好的网络模型。
目前对深度学习网络进行训练的方法主要分为两类:自下上升的非监督学习和自顶向下的有监督学习,本发明中使用自顶向下的有监督学习方法进行训练,实现步骤如下:
(2a)选择用于训练的图像训练集;
常用于目标检测网络训练的图像集有:Imagenet图像集、PASCAL VOC图像集、COCO图像集等,本发明使用图像集PASCAL VOC2007和PASCAL VOC2012的训练数据集作为训练集,用图像集PASCAL VOC2007的测试数据集作为测试集;
(2b)对训练集中标注图像的标注边框和网络模型中生成的特征图上的默认边框进行匹配;
(2b1)计算特征图上的默认边框的尺寸及位置:
设定默认边框的宽高比有5种不同的值,分别为a={1,2,3,1/2,1/3},计算第k个特征图中宽高比为a τ 的默认边框的宽和高
其中a τ 为第τ种宽高比,0≤τ≤5,s min 表示默认边框的边长与输入图像的最小比值,s max 表示默认边框的边长与输入图像的最大比值,k∈[1,E],E表示网络模型中的特征图数;
在第k个特征图上的默认边框的中心坐标(xcen,ycen)为其中|f k |是第k个特征图的尺寸,u,v表示特征图中点的坐标,u,v∈[0,|f k |];
(2b2)根据默认边框的尺寸和中心坐标,得到标注边框和默认边框之间的Jaccard重叠系数,选择Jaccard重叠系数值大于0.5的默认边框为正样本Pos,其他为负样本Neg;
(2b21)计算默认边框x的左上角的坐标(xleft,yleft)和右下角的坐标(xrigh,yrigh):
(2b22)计算默认边框与标注边框相交部分的左上角的坐标(xmin,ymin)和右下角的坐标(xmax,ymax):
xmin=max(xleft,xgleft),
ymin=max(yleft,ygleft),
xmax=max(xrigh,xgrigh),
ymax=max(yrigh,ygrigh);
其中(xgleft,ygleft)和(xgrigh,ygrigh)分别表示标注边框g的左上角的坐标和右下角的坐标;
(2b23)计算默认边框x与标注边框g相交部分的面积inter(x,g):
inter(x,g)=(max(ymax-ymin,0))*(max(xmax-xmin,0));
(2b24)计算默认边框x与标注边框g之间的Jaccard重叠系数:
选择J(x,g)系数值大于0.5的默认边框为正样本Pos,其他为负样本Neg,完成标注边框与默认边框的匹配。
(2c)构造网络模型的目标损失函数L(x,l,c,g):
(2c1)使用卷积滤波器在特征图上进行预测,得到默认边框在所有类别上的分类得分集合c和预测边框相对于默认边框的位置偏移量(Δx,Δy,Δw,Δh),其中(Δx,Δy)表示预测边框中心坐标相对于默认边框中心坐标的偏移量,Δw表示预测边框宽相对于默认边框宽的偏移量,Δh表示预测边框高相对于默认边框高的偏移量;
(2c2)根据特征图上的默认边框在所有类别上的分类得分集合c,计算softmax分类损失函数L conf (x,c):
其中,当表示第i个默认边框与类别为p的第j个标注边框相匹配,表示第i个默认边框与类别为p的第j个标注边框不匹配,0≤i≤N,N表示与标注边框匹配的默认边框数,1≤p≤H,H为总的类别数量,0≤j≤T,T为标注边框的数量,表示在正样本中第i个默认边框的在所有类别上的平均得分,表示在负样本中第i 2 个默认边框在所有类别上的平均得分,0≤i 2 ≤N 2 ,N 2 表示与标注边框不匹配的默认边框数;
(2c3)计算定位损失函数L loc (x,l,g):
其中(cx,cy)是经过(Δx,Δy)补偿后的默认框x的中心坐标,w,h是经过(Δw,Δh)补偿后的默认框的宽和高,表示偏移量为m的第i个预测边框,表示偏移量为m的第j个预测边框;
(2c4)根据分类损失函数L conf (x,c)和定位损失函数L loc (x,l,g),得到目标损失函数L(x,l,c,g):
其中,x为特征图上的默认边框,l为预测框,g为标注边框,c为特征图上的默认边框在每个类别上的类别得分集合,L conf (x,c)表示特征图上的默认边框在类别得分集合c上的softmax分类损失函数,L loc (x,l,g)表示定位损失函数,N表示与标注边框匹配的默认边框数,参数α通过交叉验证设置为1;
(2d)采用梯度下降法最小化损失函数,同时对网络中的权重参数逐层反向调节,得到训练好的网络模型。
步骤3,将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中的目标类别和位置坐标。
(3a)在预分割层对输入图像进行四叉树分割,提取感兴趣区域;
(3b)使用基础卷积层和辅助卷积层对感兴趣区域进行特征提取,得到多个尺度的特征图;
(3c)在多个尺度的特征图上计算默认边框的位置坐标
(3d)在多个尺度的特征图上使用卷积滤波器进行预测,得到多个预测边框内的目标类别得分及预测边框相对默认边框的位置偏移量;
(3e)使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量(Δxfinal,Δyfinal,Δwfinal,Δhfinal)和默认边框的位置坐标求出预测边框的位置坐标
本发明的效果可以通过以下实验进一步说明。
1.实验对象
实验对象为PASCAL VOC2007的测试数据集和图3所示的四张待检测图像a、b、c、d;
2.实验步骤
(2.1)分别使用Fast-RCNN网络模型、Faster-RCNN网络模型、YOLO网络模型、SSD300网络模型和本发明的网络模型在图像集PASCAL VOC2007和PASCAL VOC2012的训练集上训练模型;
(2.2)分别使用(2.1)中训练好的Fast-RCNN网络模型、Faster-RCNN网络模型、YOLO网络模型、SSD300网络模型和本发明的网络模型在PASCAL VOC2007测试数据集上进行测试,得到网络模型的检测精度和检测速度如表1所示;
(2.3)使用本发明训练好的模型在图3所示的四张图片上依次进行目标检测,其中对待检测图像提取感兴趣区域的结果如图4所示,最终的检测结果如图5所示,其中:
图5a用本发明对图3a进行目标检测的仿真结果,目标类别为猫,目标位置为边框;
图5b用本发明对图3b进行目标检测的仿真结果,目标类别为船,目标位置为边框;
图5c用本发明对图3c进行目标检测的仿真结果,目标类别为飞机,目标位置为边框;图5d用本发明对图3d进行目标检测的仿真结果,目标类别为猫,目标位置为边框。
由图5b和图5c的检测结果可以看出本发明的网络模型对小目标的定位精准、分类准确。
3.实验数据统计:
分别使用训练好的Fast-RCNN网络模型、Faster-RCNN网络模型、YOLO网络模型、SSD300网络模型和本发明的网络模型在PASCAL VOC2007测试数据集上进行测试,得到的检测精度和检测速度如表1所示:
表1
算法模型 训练数据集 检测精度(%) 检测速度(帧/秒)
Fast-RCNN 07++12 68.4 3
Faster-RCNN 07++12 70.4 5
YOLO 07++12 57.9 47
SSD300 07++12 72.4 59
本文方法 07++12 74.9 45
从表1可以看出,本发明的网络模型在测试集上测试的检测精度和检测速度比Fast-RCNN网络模型、Faster-RCNN网络模型的检测精度和检测速度都有显著提高,与SSD300网络模型、YOLO网络模型相比,本发明的网络模型可以在保证检测速度的同时,检测精度提高。实时检测的速度要求是大于25帧每秒,本发明的检测速度达到45帧每秒,满足实时检测要求。