Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020109277 - PROCÉDÉ ET SYSTÈME DE CRÉATION D'UN CORPUS D'APPRENTISSAGE SPÉCIFIQUE À UN DOMAINE À PARTIR DE CORPUS DE DOMAINES GÉNÉRIQUES

Numéro de publication WO/2020/109277
Date de publication 04.06.2020
N° de la demande internationale PCT/EP2019/082519
Date du dépôt international 26.11.2019
CIB
G06F 16/33 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
30de données textuelles non structurées
33Requêtes
CPC
G06F 16/3344
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
334Query execution
3344using natural language analysis
Déposants
  • KONINKLIJKE PHILIPS N.V. [NL]/[NL]
  • TRUSTEES OF BOSTON UNIVERSITY [US]/[US]
Inventeurs
  • ZHU, Henghui
  • TAHMASEBI MARAGHOOSH, Amir, Mohammad
  • PASCHALIDIS, Ioannis
Mandataires
  • PHILIPS INTELLECTUAL PROPERTY & STANDARDS
Données relatives à la priorité
62/772,66129.11.2018US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) METHOD AND SYSTEM FOR CREATING A DOMAIN-SPECIFIC TRAINING CORPUS FROM GENERIC DOMAIN CORPORA
(FR) PROCÉDÉ ET SYSTÈME DE CRÉATION D'UN CORPUS D'APPRENTISSAGE SPÉCIFIQUE À UN DOMAINE À PARTIR DE CORPUS DE DOMAINES GÉNÉRIQUES
Abrégé
(EN)
A method (100) for generating a domain- specific training set, comprising: generating (130) a generic corpus comprising a plurality of tokenized documents, comprising: (i) parsing (132) a document retrieved from the generic corpus; (ii) preprocessing (134) the parsed document; (iii) tokenizing (136) the preprocessed document; and (iv) storing (138) the tokenized document in the generic corpus; generating (140) an ontology database of tokenized entries, comprising: (i) parsing (142) an ontology entry retrieved from an ontology; (ii) preprocessing (144) the parsed entry; (iii) tokenizing (146) the preprocessed entry; and (iv) storing (148) the tokenized entry in the ontology database; querying (150), using domain- specific tokenized entries from the ontology database, the tokenized documents in the generic corpus; identifying (160), based on the query, a plurality of tokenized documents specific to the domain; and storing (170), in a training set database, the identified tokenized documents as a training set specific to the domain.
(FR)
La présente invention concerne un procédé (100) pour générer un ensemble d'apprentissage spécifique à un domaine, comprenant les étapes consistant à : générer (130) un corpus générique comprenant une pluralité de documents tokenisés, comprenant les étapes consistant à : (i) analyser (132) un document récupéré à partir du corpus générique ; (ii) prétraiter (134) le document analysé ; (iii) tokeniser (136) le document prétraité ; et (iv) stocker (138) le document tokenisé dans le corpus générique ; générer (140) une base de données d'ontologie d'entrées tokenisées, comprenant les étapes consistant à : (i) analyser (142) une entrée d'ontologie extraite d'une ontologie ; (ii) prétraiter (144) l'entrée analysée ; (iii) tokeniser (146) l'entrée prétraitée ; et (iv) stocker (148) l'entrée tokenisée dans la base de données d'ontologie ; interroger (150), à l'aide d'entrées tokenisées spécifiques au domaine à partir de la base de données d'ontologie, les documents tokenisés dans le corpus générique ; identifier (160), sur la base de la requête, une pluralité de documents tokenisés spécifiques au domaine ; et stocker (170), dans une base de données d'ensemble d'apprentissage, les documents tokenisés identifiés comme ensemble d'apprentissage spécifique au domaine.
Dernières données bibliographiques dont dispose le Bureau international