Processing

Please wait...

Settings

Settings

1. WO2014022441 - CLASSIFICATION OF NUCLEOTIDE SEQUENCES BY LATENT SEMANTIC ANALYSIS

Publication Number WO/2014/022441
Publication Date 06.02.2014
International Application No. PCT/US2013/052797
International Filing Date 30.07.2013
IPC
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
19
Digital computing or data processing equipment or methods, specially adapted for specific applications
G06F 19/00 (2011.01)
CPC
G16B 30/00
G16B 40/00
Applicants
  • SAYOOD, Khalid [US/US]; US
  • WAY, Sam [US/US]; US
  • NALBANTOGLU, Ozkan Ufuk [US/US]; US
  • GARRITY, George [US/US]; US
Inventors
  • SAYOOD, Khalid; US
  • WAY, Sam; US
  • NALBANTOGLU, Ozkan Ufuk; US
  • GARRITY, George; US
Agents
  • HUANG, Rex I.; Fish & Richardson P.C. P.O. Box 1022 Minneapolis, Minnesota 55440-1022, US
Priority Data
61/677,31630.07.2012US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) CLASSIFICATION OF NUCLEOTIDE SEQUENCES BY LATENT SEMANTIC ANALYSIS
(FR) CLASSIFICATION DE SÉQUENCES NUCLÉOTIDIQUES PAR ANALYSE SÉMANTIQUE LATENTE
Abstract
(EN)
DNA sequences are analyzed using latent semantic analysis. A set of nucleotide sequences is received in which the set has a first number of sequences. A set of basis vectors is determined, in which the set has a second number of basis vectors, the second number being smaller than the first number. Each basis vector represents a specific combination of predetermined nucleotide segments. For each of the nucleotide sequences, an approximate representation of the nucleotide sequence is determined based on a combination of the basis vectors. For each pair of nucleotide sequences, a distance between the pair of nucleotide sequences is determined according the distance between the approximate representation of the pair of nucleotide sequences. The set of nucleotide sequences are classified based on the distances between the pairs of nucleotide sequences.
(FR)
Des séquences d'ADN sont analysées par analyse sémantique latente. On reçoit un ensemble de séquences nucléotidiques comportant un premier nombre de séquences. Un ensemble de vecteurs de base est déterminé, ensemble comportant un second nombre de vecteurs de base, ledit second nombre étant inférieur au premier. Chaque vecteur de base représente une combinaison spécifique de segments nucléotidiques prédéterminés. Pour chacune des séquences nucléotidiques, une représentation approximative de la séquence nucléotidique est déterminée sur la base d'une combinaison des vecteurs de base. Pour chaque paire de séquences nucléotidiques, la distance entre les deux séquences de la paire de séquences nucléotidiques est déterminée selon la distance entre les représentations approximatives de chaque séquence de la paire de séquences nucléotidiques. L'ensemble de séquences nucléotidiques est classé sur la base des distances entre les deux séquences de chaque paire de séquences nucléotidiques.
Latest bibliographic data on file with the International Bureau