Processing

Please wait...

Settings

Settings

Goto Application

1. WO2010039898 - EFFICIENT LARGE-SCALE FILTERING AND/OR SORTING FOR QUERYING OF COLUMN BASED DATA ENCODED STRUCTURES

Publication Number WO/2010/039898
Publication Date 08.04.2010
International Application No. PCT/US2009/059118
International Filing Date 30.09.2009
IPC
G06F 17/00 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
G06F 17/30 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
30Information retrieval; Database structures therefor
CPC
G06F 16/221
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
22Indexing; Data structures therefor; Storage structures
221Column-oriented storage; Management thereof
G06F 16/24534
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2453Query optimisation
24534Query rewriting; Transformation
G06F 16/24561
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2455Query execution
24553of query operations
24561Intermediate data storage techniques for performance improvement
Applicants
  • MICROSOFT CORPORATION [US]/[US] (AllExceptUS)
Inventors
  • NETZ, Amir
  • PETCULESCU, Cristian
  • PREDESCU, Adrian, Ilcu
  • DUMITRU, Marius
Priority Data
12/363,63730.01.2009US
61/102,86305.10.2008US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) EFFICIENT LARGE-SCALE FILTERING AND/OR SORTING FOR QUERYING OF COLUMN BASED DATA ENCODED STRUCTURES
(FR) FILTRAGE ET / OU TRI EFFICACES À GRANDE ÉCHELLE POUR L’INTERROGATION DE STRUCTURES CODÉES DE DONNÉES EN COLONNES
Abstract
(EN)
The subject disclosure relates to querying of column based data encoded structures enabling efficient query processing over large scale data storage, and more specifically with respect to complex queries implicating filter and/or sort operations for data over a defined window. In this regard, in various embodiments, a method is provided that avoids scenarios involving expensive sorting of a high percentage of, or all, rows, either by not sorting any rows at all, or by sorting only a very small number of rows consistent with or smaller than a number of rows associated with the size of the requested window over the data. In one embodiment, this is achieved by splitting an external query request into two different internal sub-requests, a first one that computes statistics about distribution of rows for any specified WHERE clauses and ORDER BY columns, and a second one that selects only the rows that match the window based on the statistics.
(FR)
L'invention concerne l’interrogation de structures codées de données en colonnes permettant un traitement efficace des requêtes sur des stockages de données à grande échelle, plus particulièrement par rapport à des requêtes complexes impliquant des opérations de filtrage et / ou de tri de données sur une fenêtre définie. À cet égard, dans divers modes de réalisation, un procédé selon l’invention évite des scénarios faisant intervenir un tri coûteux d’un pourcentage élevé ou de la totalité des lignes, soit en ne triant aucune des lignes, soit en ne triant qu’un très petit nombre de lignes cohérent avec, ou inférieur à, un nombre de lignes associé à la taille de la fenêtre demandée sur les données. Dans un mode de réalisation, ceci est réalisé en scindant une demande de requête externe en deux sous-requêtes internes différentes, la première de celles-ci calculant des statistiques relatives à la répartition des lignes pour d’éventuelles clauses WHERE et colonnes ORDER BY spécifiées, et la deuxième sélectionnant uniquement les lignes qui correspondent à la fenêtre basée sur les statistiques.
Latest bibliographic data on file with the International Bureau