Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020109277 - METHOD AND SYSTEM FOR CREATING A DOMAIN-SPECIFIC TRAINING CORPUS FROM GENERIC DOMAIN CORPORA

Publication Number WO/2020/109277
Publication Date 04.06.2020
International Application No. PCT/EP2019/082519
International Filing Date 26.11.2019
IPC
G06F 16/33 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
CPC
G06F 16/3344
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
334Query execution
3344using natural language analysis
Applicants
  • KONINKLIJKE PHILIPS N.V. [NL]/[NL]
  • TRUSTEES OF BOSTON UNIVERSITY [US]/[US]
Inventors
  • ZHU, Henghui
  • TAHMASEBI MARAGHOOSH, Amir, Mohammad
  • PASCHALIDIS, Ioannis
Agents
  • PHILIPS INTELLECTUAL PROPERTY & STANDARDS
Priority Data
62/772,66129.11.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) METHOD AND SYSTEM FOR CREATING A DOMAIN-SPECIFIC TRAINING CORPUS FROM GENERIC DOMAIN CORPORA
(FR) PROCÉDÉ ET SYSTÈME DE CRÉATION D'UN CORPUS D'APPRENTISSAGE SPÉCIFIQUE À UN DOMAINE À PARTIR DE CORPUS DE DOMAINES GÉNÉRIQUES
Abstract
(EN)
A method (100) for generating a domain- specific training set, comprising: generating (130) a generic corpus comprising a plurality of tokenized documents, comprising: (i) parsing (132) a document retrieved from the generic corpus; (ii) preprocessing (134) the parsed document; (iii) tokenizing (136) the preprocessed document; and (iv) storing (138) the tokenized document in the generic corpus; generating (140) an ontology database of tokenized entries, comprising: (i) parsing (142) an ontology entry retrieved from an ontology; (ii) preprocessing (144) the parsed entry; (iii) tokenizing (146) the preprocessed entry; and (iv) storing (148) the tokenized entry in the ontology database; querying (150), using domain- specific tokenized entries from the ontology database, the tokenized documents in the generic corpus; identifying (160), based on the query, a plurality of tokenized documents specific to the domain; and storing (170), in a training set database, the identified tokenized documents as a training set specific to the domain.
(FR)
La présente invention concerne un procédé (100) pour générer un ensemble d'apprentissage spécifique à un domaine, comprenant les étapes consistant à : générer (130) un corpus générique comprenant une pluralité de documents tokenisés, comprenant les étapes consistant à : (i) analyser (132) un document récupéré à partir du corpus générique ; (ii) prétraiter (134) le document analysé ; (iii) tokeniser (136) le document prétraité ; et (iv) stocker (138) le document tokenisé dans le corpus générique ; générer (140) une base de données d'ontologie d'entrées tokenisées, comprenant les étapes consistant à : (i) analyser (142) une entrée d'ontologie extraite d'une ontologie ; (ii) prétraiter (144) l'entrée analysée ; (iii) tokeniser (146) l'entrée prétraitée ; et (iv) stocker (148) l'entrée tokenisée dans la base de données d'ontologie ; interroger (150), à l'aide d'entrées tokenisées spécifiques au domaine à partir de la base de données d'ontologie, les documents tokenisés dans le corpus générique ; identifier (160), sur la base de la requête, une pluralité de documents tokenisés spécifiques au domaine ; et stocker (170), dans une base de données d'ensemble d'apprentissage, les documents tokenisés identifiés comme ensemble d'apprentissage spécifique au domaine.
Latest bibliographic data on file with the International Bureau