Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Saturday 31.10.2020 at 7:00 AM CET
Settings

Settings

Goto Application

1. CN107423760 - Depth learning target detection method based on pre-segmentation and regression

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ ZH ]

权利要求书

1.基于预分割和回归的深度学习目标检测方法,包括:
(1)根据四叉树算法和卷积神经网络VGG-16建立基于预分割和回归的深度学习网络模型;
(2)在图像训练集上训练构建好的网络模型;
(2a)使用图像集PASCAL VOC2007和PASCAL VOC2012的训练数据集作为训练集,用图像集PASCAL VOC2007的测试数据集作为测试集;
(2b)对训练集中标注图像的标注边框和网络模型中生成的特征图上的默认边框进行匹配;
(2c)构造网络模型的目标损失函数L(x,l,c,g);
L ( x , l , c , g ) = 1 N ( L c o n f ( x , c ) ) + αL l o c ( x , l , g )
其中,x为特征图上的默认边框,l为预测框,g为标注边框,c为特征图上的默认边框在每个类别上的类别得分集合,L conf (x,c)表示特征图上的默认边框在类别得分集合c上的softmax分类损失函数,L loc (x,l,g)表示定位损失函数,N表示与标注边框匹配的默认边框数,参数α通过交叉验证设置为1;
(2d)采用梯度下降法最小化损失函数同时对网络中的权重参数逐层反向调节,得到训练好的网络模型;
(3)将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中的目标类别和位置坐标。

2.根据权利要求1所述的方法,其中步骤(1)根据四叉树算法和卷积神经网络VGG-16建立基于预分割和回归的深度学习网络模型,按照如下步骤进行:
(1a)利用四叉树算法构建感兴趣区域预分割网络层:
(1a1)设定四叉树算法中的分割阈值为M,最大分割次数为Q,将待检测图像按照水平方向和垂直方向分成四个子区域;
(1a2)计算分割后的每个子区域的平均灰度值,把平均灰度值大于M的子区域继续分割为四个子区域,直到子区域的平均灰度值小于M或者分割次数达到Q时停止分割,并记录其位置信息;
(1a3)根据子区域的位置信息,找到位于待检测图像左上角和右下角的最小子区域的坐标,即为待检测图像中的感兴趣区域的位置;
(1b)根据卷积神经网络VGG-16建立目标检测网络层:
(1b1)使用卷积神经网络VGG-16中的阶段stage1-stage5作为目标检测网络层的基础卷积层,并将其中的全连接层fc6、fc7替换为两个卷积层,同时添加四个新卷积层作为目标检测网络层的辅助卷积层;
(1b2)使用一系列的卷积滤波器构成目标检测网络的检测层;
(1b3)使用基于候选区域和卷积神经网络的目标检测网络R-CNN中的非极大值抑制层构成目标检测网络层的输出层。

3.根据权利要求1所述的方法,其中步骤(2b)中对训练集中标注图像的标注边框和网络模型中生成的特征图上的默认边框进行匹配,按照如下步骤进行:
(2b1)计算特征图上的默认边框的尺寸及位置:
设定每一个特征图上默认边框的宽高比有5种不同的比值,分别为a={1,2,3,1/2,1/3},计算第k个特征图中宽高比为a τ 的默认边框的宽和高
w k a τ = ( s min + s m a x - s min m - 1 ( k - 1 ) ) a τ , h k a τ = ( s min + s m a x - s min m - 1 ( k - 1 ) ) a τ
其中a τ 为第τ种宽高比,1≤τ≤5,s min 表示宽高比为1的默认边框的边长与输入图像的边长的最小比值,s max 表示宽高比为1的默认边框的边长与输入图像的边长的最大比值,k∈[1,E],E表示网络模型中的特征图数;
计算第k个特征图上的默认边框的中心坐标(xcen,ycen)为其中(u,v)表示特征图中点的坐标,u,v∈[0,|f k |],|f k |是第k个特征图的尺寸;
(2b2)根据默认边框的尺寸和中心坐标与标注边框的位置坐标,计算默认边框x和标注边框g之间的Jaccard重叠系数:
(2b21)计算默认边框x的左上角的坐标(xleft,yleft)和右下角的坐标(xrigh,yrigh):
x l e f t = x c e n - w k a τ / 2 ,
y l e f t = y c e n - h k a τ / 2 ,
x r i g h = x c e n + w k a τ / 2 ,
y r i g h = y c e n + h k a τ / 2 ;
(2b22)计算默认边框与标注边框相交部分的左上角的坐标(x min,y min)和右下角的坐标(x max,y max):
x min=max(xleft,xgleft),
y min=max(yleft,ygleft),
x max=max(xrigh,xgrigh),
y max=max(yrigh,ygrigh);
其中(xgleft,ygleft)和(xgrigh,ygrigh)分别表示标注边框g的左上角的坐标和右下角的坐标;
(2b23)计算默认边框x与标注边框g相交部分的面积inter(x,g):
inter(x,g)=(max(y max-y min,0))*(max(x max-x min,0))
(2b24)计算默认边框x与标注边框g之间的Jaccard重叠系数:
J ( x , g ) = int e r ( x , g ) ( y r i g h - y l e f t ) * ( x r i g h - x l e f t ) + ( y g r i g h - y g l e f t ) * ( x g r i g h - x g l e f t ) - int e r ( x , g )
选择J(x,g)系数值大于0.5的默认边框为正样本Pos,其他为负样本Neg,完成标注边框与默认边框的匹配。

4.根据权利要求1所述的方法,其中步骤(2c)中构造网络模型的目标损失函数L(x,l,c,g),按如下步骤进行:
(2c1)使用卷积滤波器在特征图上进行预测,得到默认边框在所有类别上的分类得分集合c和预测边框相对于默认边框的位置偏移量(Δx,Δy,Δw,Δh),其中(Δx,Δy)表示预测边框中心坐标相对于默认边框中心坐标的偏移量,其中Δw表示预测边框宽相对于默认边框宽的偏移量,其中Δh表示预测边框高相对于默认边框高的偏移量;
(2c2)根据特征图上的默认边框在所有类别上的分类得分集合c,计算softmax分类损失函数L conf (x,c):
L c o n f ( x , c ) = Σ i P o s N x i j p l o g ( c ^ i P o s ) - Σ i 2 N e g log ( c ^ i 2 N e g ) ,
其中,当表示第i个默认边框与类别为p的第j个标注边框相匹配,表示第i个默认边框与类别为p的第j个标注边框不匹配,0≤i≤N,N表示与标注边框匹配的默认边框数,1≤p≤H,H为总的类别数量,0≤j≤T,T为标注边框的数量,表示在正样本中第i个默认边框的在所有类别上的平均得分,表示在负样本中第i 2 个默认边框在所有类别上的平均得分,0≤i 2 ≤N 2 ,N 2 表示与标注边框不匹配的默认边框数;
(2c3)计算定位损失函数L loc (x,l,g):
L l o c ( x , l , g ) = Σ i P o s N Σ m { c x , c y , w , h } x i j p smooth L 1 ( l i m - g ^ j m )
其中(cx,cy)是经过(Δx,Δy)补偿后的默认框x的中心坐标,w,h是经过(Δw,Δh)补偿后的默认框的宽和高,表示偏移量为m的第i个预测边框,表示偏移量为m的第j个预测边框;
(2c4)根据分类损失函数L conf (x,c)和定位损失函数L loc (x,l,g),得到目标损失函数L(x,l,c,g):
L ( x , l , c , g ) = 1 N ( L c o n f ( x , c ) ) + αL l o c ( x , l , g ) .

5.根据权利要求1所述的方法,其中步骤(3)中将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中的目标类别和位置坐标,按如下步骤进行:
(3a)在预分割层对输入图像进行四叉树分割,提取感兴趣区域;
(3b)使用基础卷积层和辅助卷积层对感兴趣区域进行特征提取,得到多个尺度的特征图;
(3c)在多个尺度的特征图上计算默认边框的位置坐标;
(3d)在多个尺度的特征图上使用卷积滤波器进行预测,得到多个预测边框内的目标类别得分及预测边框相对默认边框的位置偏移量;
(3e)使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量和默认边框的位置坐标求出预测边框的位置坐标。