Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020221298 - TEXT DETECTION MODEL TRAINING METHOD AND APPARATUS, TEXT REGION DETERMINATION METHOD AND APPARATUS, AND TEXT CONTENT DETERMINATION METHOD AND APPARATUS

Publication Number WO/2020/221298
Publication Date 05.11.2020
International Application No. PCT/CN2020/087809
International Filing Date 29.04.2020
IPC
G06K 9/20 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
20Image acquisition
CPC
G06F 17/2775
G06K 9/2054
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
20Image acquisition
2054Selective acquisition/locating/processing of specific regions, e.g. highlighted text, fiducial marks, predetermined fields, document type identification
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/084
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
084Back-propagation
Applicants
  • 北京金山云网络技术有限公司 BEIJING KINGSOFT CLOUD NETWORK TECHNOLOGY CO., LTD. [CN]/[CN]
  • 北京金山云科技有限公司 BEIJING KINGSOFT CLOUD TECHNOLOGY CO., LTD. [CN]/[CN]
Inventors
  • 苏驰 SU, Chi
  • 李凯 LI, Kai
  • 刘弘也 LIU, Hongye
  • 赵志明 ZHAO, Zhiming
Agents
  • 北京柏杉松知识产权代理事务所(普通合伙) PATENTSINO IP FIRM
Priority Data
201910367675.230.04.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) TEXT DETECTION MODEL TRAINING METHOD AND APPARATUS, TEXT REGION DETERMINATION METHOD AND APPARATUS, AND TEXT CONTENT DETERMINATION METHOD AND APPARATUS
(FR) PROCÉDÉ ET APPAREIL D'APPRENTISSAGE DE MODÈLE DE DÉTECTION DE TEXTE, PROCÉDÉ ET APPAREIL DE DÉTERMINATION DE RÉGION DE TEXTE, ET PROCÉDÉ ET APPAREIL DE DÉTERMINATION DE CONTENU DE TEXTE
(ZH) 文本检测模型训练方法、文本区域、内容确定方法和装置
Abstract
(EN)
The present application provides a text detection model training method and apparatus, a text region determination method and apparatus, and a text content determination method and apparatus. The text detection model training method comprises: extracting a plurality of initial feature maps of a target training image by means of a first feature extraction network; fusing the plurality of initial feature maps by means of a feature fusion network to obtain a fusion feature map; inputting the fusion feature map to a first output network, and outputting candidate regions of a text region in the target training image and the probability value of each candidate region; determining a first loss value by means of a preset loss detection function; and training the first initial model according to the first loss value until parameters in the first initial model are converged, to obtain a text detection model. According to the present application, all kinds of texts in the image can be quickly, fully and accurately detected under a variety of front sizes, fonts, shapes and directions, thereby contributing to the accuracy of subsequent text recognition, and improving the text recognition effect.
(FR)
La présente invention concerne un procédé et un appareil d'apprentissage de modèle de détection de texte, un procédé et un appareil de détermination de région de texte, et un procédé et un appareil de détermination de contenu de texte. Le procédé d'apprentissage de modèle de détection de texte comprend les étapes consistant à : extraire une pluralité de cartes de caractéristiques initiales d'une image d'apprentissage cible au moyen d'un premier réseau d'extraction de caractéristiques ; fusionner la pluralité de cartes de caractéristiques initiales au moyen d'un réseau de fusion de caractéristiques pour obtenir une carte de caractéristiques de fusion ; entrer la carte de caractéristiques de fusion dans un premier réseau de sortie, et délivrer en sortie des régions candidates d'une région de texte dans l'image d'apprentissage cible et la valeur de probabilité de chaque région candidate ; déterminer une première valeur de perte au moyen d'une fonction de détection de perte prédéfinie ; et entraîner le premier modèle initial en fonction de la première valeur de perte jusqu'à ce que des paramètres dans le premier modèle initial convergent, afin d'obtenir un modèle de détection de texte. Selon la présente invention, tous les types de textes dans l'image peuvent être détectés de manière rapide, complète et précise sous une variété de tailles avant, de polices, de formes et de directions, ce qui contribue à la précision de la reconnaissance de texte ultérieure, et améliore l'effet de reconnaissance de texte.
(ZH)
本申请提供了一种文本检测模型训练方法、文本区域、内容确定方法和装置;其中,该文本检测模型训练方法包括:通过第一特征提取网络提取目标训练图像的多个初始特征图;通过特征融合网络对多个初始特征图进行融合处理,得到融合特征图;将融合特征图输入至第一输出网络,输出目标训练图像中文本区域的候选区域以及每个候选区域的概率值;通过预设的检测损失函数确定第一损失值;根据第一损失值对第一初始模型进行训练,直至第一初始模型中的参数收敛,得到文本检测模型。本申请可以在多种字号、多种字体、多种形状、多种方向场景下,快速全面准确地检测出图像中的各类文本,进而也有利于后续文本识别的准确性,提高文本识别的效果。
Latest bibliographic data on file with the International Bureau