Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Tuesday 25.01.2022 at 9:00 AM CET
Settings

Settings

Goto Application

1. WO2022000089 - VECTOR SPACE MODEL FOR FORM DATA EXTRACTION

Publication Number WO/2022/000089
Publication Date 06.01.2022
International Application No. PCT/CA2021/050901
International Filing Date 30.06.2021
IPC
G06F 17/00 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
G06F 16/20 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
G06F 16/28 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
28Databases characterised by their database models, e.g. relational or object models
G06F 17/18 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
10Complex mathematical operations
18for evaluating statistical data
Applicants
  • NATIONAL RESEARCH COUNCIL OF CANADA [CA]/[CA]
Inventors
  • SU, Jiang
  • GUO, Hongyu
Agents
  • SABETA, Anton C.
  • MCMANUS, Kimberly A.
  • SINDEN, William K.
  • REECE, Pia-Lauren
  • LOWTHERS, Erica L.
  • BARTOSZEWICZ, Lola A.
  • HUNDAL, Steve S.
Priority Data
63/046,63630.06.2020US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) VECTOR SPACE MODEL FOR FORM DATA EXTRACTION
(FR) MODÈLE D'ESPACE VECTORIEL POUR L'EXTRACTION DE DONNÉES DE FORMULAIRE
Abstract
(EN) A computer-implemented method for detecting attribute value pairs from corpus data using a computer comprising a processor and a computer readable medium comprising instructions executable by the processor to at least: receive the corpus data comprising at least one pair; detect a layout template of the at least one pair; measure the merit of the layout template by determining at least one of (a) relative magnitudes of content probabilities based on a probability of the contents of an attribute cell and a probability of a corresponding value cell, (b) the validity of a name-value pair, or (c) the pointwise mutual information of a frequency matrix M corresponding to a sparse vector capturing context information of a word; and output detected attribute value pairs.
(FR) Procédé mis en œuvre par ordinateur permettant de détecter des paires de valeurs d'attribut à partir de données de corpus à l'aide d'un ordinateur comprenant un processeur et un support lisible par ordinateur comprenant des instructions exécutables par le processeur pour au moins : recevoir les données de corpus comprenant au moins une paire ; détecter un modèle de présentation de ladite paire ; mesurer le bienfondé du modèle de présentation au moyen de la détermination (a) d'amplitudes relatives de probabilités de contenu en fonction d'une probabilité du contenu d'une cellule d'attribut et d'une probabilité d'une cellule de valeur correspondante et/ou (b) de la validité d'une paire de valeurs de nom et/ou (c) des informations mutuelles point par point d'une matrice de fréquence M correspondant à un vecteur creux capturant des informations de contexte d'un mot ; et fournir en sortie des paires de valeurs d'attribut détectées.
Latest bibliographic data on file with the International Bureau