Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020117359 - SYSTEM AND METHOD FOR ACHIEVING HIGH GENE DATA RESOLUTION USING TRAINING SETS

Publication Number WO/2020/117359
Publication Date 11.06.2020
International Application No. PCT/US2019/053634
International Filing Date 27.09.2019
IPC
G16B 10/00 2019.01
GPHYSICS
16INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
10ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
G16B 40/00 2019.01
GPHYSICS
16INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
40ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
G06K 9/62 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
Applicants
  • HUANG, Yanmei [US]/[US]
  • FERNANDEZ ESCAPA, Isabel [ES]/[US]
  • LEMON, Katherine [US]/[US]
  • DEWHIRST, Floyd, E. [US]/[US]
Inventors
  • HUANG, Yanmei
  • FERNANDEZ ESCAPA, Isabel
  • LEMON, Katherine
  • DEWHIRST, Floyd, E.
Agents
  • RUSSELL, Hathaway, P.
Priority Data
62/775,99706.12.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) SYSTEM AND METHOD FOR ACHIEVING HIGH GENE DATA RESOLUTION USING TRAINING SETS
(FR) SYSTÈME ET PROCÉDÉ POUR OBTENIR UNE HAUTE RÉSOLUTION DE DONNÉES GÉNÉTIQUES EN UTILISANT DES ENSEMBLES D'ENTRAÎNEMENT
Abstract
(EN)
Systems, methods, and computer program products for generating an enhanced set of sequences for taxonomical classification are disclosed. In various embodiments, a plurality of reference sequences are received. Each of the plurality of reference sequences corresponds to a taxonomical classification. A label corresponding to at least one of the reference sequences is assigned to each of a plurality of supplemental sequences. Each of the plurality of supplemental sequences and each of the plurality of reference sequences are truncated to a region of interest to thereby generate a truncated set of sequences. Similarity is measured between pairs of truncated sequences in the truncated set of sequences to determine whether the similarity is above a predetermined threshold. An intermediate taxonomical label is assigned to the pair of truncated sequences in the truncated set of sequences when the similarity is above the predetermined threshold to thereby generate an enhanced set of sequences.
(FR)
L'invention concerne des systèmes, des procédés et des produits de programme informatique pour générer un ensemble amélioré de séquences destinées à la classification taxonomique. Dans divers modes de réalisation, une pluralité de séquences de référence sont reçues. Chacune de la pluralité de séquences de référence correspond à une classification taxonomique. Une étiquette correspondant à au moins l'une des séquences de référence est attribuée à chacune d'une pluralité de séquences supplémentaires. Chacune de la pluralité de séquences supplémentaires et chacune de la pluralité de séquences de référence sont tronquées à une région d'intérêt afin de générer ainsi un ensemble tronqué de séquences. Une similarité est mesurée entre des paires de séquences tronquées dans l'ensemble tronqué de séquences afin de déterminer si la similarité est supérieure à un seuil prédéterminé. Une étiquette taxonomique intermédiaire est attribuée à la paire de séquences tronquées dans l'ensemble tronqué de séquences lorsque la similarité est supérieure au seuil prédéterminé afin de générer ainsi un ensemble amélioré de séquences.
Latest bibliographic data on file with the International Bureau