Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022208364 - NATURAL LANGUAGE PROCESSING FOR CATEGORIZING SEQUENCES OF TEXT DATA

Publication Number WO/2022/208364
Publication Date 06.10.2022
International Application No. PCT/IB2022/052908
International Filing Date 29.03.2022
IPC
G06E 1/00 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
EOPTICAL COMPUTING DEVICES
1Devices for processing exclusively digital data
CPC
G06E 1/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
EOPTICAL COMPUTING DEVICES; ; COMPUTING DEVICES USING OTHER RADIATIONS WITH SIMILAR PROPERTIES
1Devices for processing exclusively digital data
G06F 40/232
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
232Orthographic correction, e.g. spell checking or vowelisation
G06F 40/40
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
40Processing or translation of natural language
G06V 30/412
G06V 30/418
Applicants
  • AMERICAN EXPRESS (INDIA) PRIVATE LIMITED [IN]/[IN]
Inventors
  • MEHTA, Jugalkumar Prafulbhai
  • GUPTA, Manish
  • PADMAVATHI, Mulagala
Priority Data
20211101567901.04.2021IN
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) NATURAL LANGUAGE PROCESSING FOR CATEGORIZING SEQUENCES OF TEXT DATA
(FR) TRAITEMENT AUTOMATIQUE DES LANGUES POUR CATÉGORISER DES SÉQUENCES DE DONNÉES DE TEXTE
Abstract
(EN) Disclosed herein are system, method, and computer program product embodiments for categorizing sequences of text extracted from documents using natural language processing. In some embodiments, a categorization system may receive a first document file in a machine readable format. The categorization system may analyze a sequence of text from the first document file and identify a numeric text string in the sequence. The categorization system may also identify text data in the sequence matching text data from a second document file. The categorization system may remove the numeric text string and the matching data from the sequence to generate a trimmed version of the sequence. The categorization system may then apply a vectorization model to the trimmed version of the sequence as well as a trained deep learning model to the vector version to identify a corresponding category for the sequence of text.
(FR) Sont divulgués dans la description un système, un procédé et des modes de réalisation de produit-programme informatique pour catégoriser des séquences de texte extraites de documents à l'aide d'un traitement automatique des langues. Dans certains modes de réalisation, un système de catégorisation peut recevoir un premier fichier de document dans un format lisible par machine. Le système de catégorisation peut analyser une séquence de texte à partir du premier fichier de document et identifier une chaîne de caractères numérique dans la séquence. Le système de catégorisation peut également identifier des données de texte dans la séquence correspondant à des données de texte provenant d'un second fichier de document. Le système de catégorisation peut éliminer la chaîne de caractères numérique et les données de mise en correspondance de la séquence pour générer une version ajustée de la séquence. Le système de catégorisation peut ensuite appliquer un modèle de vectorisation à la version ajustée de la séquence, ainsi qu'un modèle d'apprentissage profond formé à la version vectorielle pour identifier une catégorie correspondante de la séquence de texte.
Related patent documents
Latest bibliographic data on file with the International Bureau