Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020112579 - SCALABLE IMPLEMENTATIONS OF EXACT DISTINCT COUNTS AND MULTIPLE EXACT DISTINCT COUNTS IN DISTRIBUTED QUERY PROCESSING SYSTEMS

Publication Number WO/2020/112579
Publication Date 04.06.2020
International Application No. PCT/US2019/062899
International Filing Date 24.11.2019
IPC
G06F 16/2455 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2455Query execution
CPC
G06F 16/221
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
22Indexing; Data structures therefor; Storage structures
221Column-oriented storage; Management thereof
G06F 16/2379
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
23Updating
2379Updates performed during online database operations; commit processing
G06F 16/2455
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2455Query execution
G06F 16/24556
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2455Query execution
24553of query operations
24554Unary operations; Data partitioning operations
24556Aggregation; Duplicate elimination
Applicants
  • MICROSOFT TECHNOLOGY LICENSING, LLC [US]/[US]
Inventors
  • VISWANADHA, Sreenivasa
Agents
  • MINHAS, Sandip S.
  • ADJEMIAN, Monica
  • BARKER, Doug
  • CHATTERJEE, Aaron C.
  • CHEN, Wei-Chen Nicholas
  • CHOI, Daniel
  • CHURNA, Timothy
  • DINH, Phong
  • EVANS, Patrick
  • GABRYJELSKI, Henry
  • GOLDSMITH, Micah P.
  • GUPTA, Anand
  • HINOJOSA-SMITH, Brianna L.
  • HWANG, William C.
  • JARDINE, John S.
  • LEE, Sunah
  • LEMMON, Marcus
  • MARQUIS, Thomas
  • MEYERS, Jessica
  • ROPER, Brandon
  • SPELLMAN, Steven
  • SULLIVAN, Kevin
  • SWAIN, Cassandra T.
  • TABOR, Ben
  • WALKER, Matt
  • WIGHT, Stephen A.
  • WISDOM, Gregg
  • WONG, Ellen
  • WONG, Thomas S.
  • ZHANG, Hannah
  • TRAN, Kimberly
Priority Data
16/206,02230.11.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) SCALABLE IMPLEMENTATIONS OF EXACT DISTINCT COUNTS AND MULTIPLE EXACT DISTINCT COUNTS IN DISTRIBUTED QUERY PROCESSING SYSTEMS
(FR) IMPLÉMENTATIONS ÉVOLUTIVES DE COMPTES DISTINCTS EXACTS ET DE MULTIPLES COMPTES DISTINCTS EXACTS DANS DES SYSTÈMES DE TRAITEMENT DE REQUÊTES RÉPARTIES
Abstract
(EN)
Scalable implementations of exact distinct counts and multiple exact distinct counts in distributed query processing systems are implemented via systems and devices. Distinct counts and multiple exact distinct counts for identifiers/values are performed based on keys. For distinct counts, datasets including data fields are sorted by values of fields and divided into balanced partitions in distributed servers. Subsets of fields with the same value are partitioned together. Key presence is determined for subsets on each partition, and the number of instances for the key are aggregated for exact distinct counts of values. For multiple distinct counts, fields of a dataset are combined by un-pivoting field columns. Compound keys are generated for combined fields from field identifiers of the combined fields and values of another field. Totals of unique values of the combined fields are determined for values in the counted field based on the compound keys.
(FR)
La présente invention concerne des implémentations évolutives de comptes distincts exacts et de multiples comptes distincts exacts dans des systèmes de traitement de requêtes réparties qui sont implémentées par l'intermédiaire de systèmes et de dispositifs. Des comptes distincts et de multiples comptes distincts exacts pour des identifiants/valeurs sont effectués sur la base de clés. Pour des comptes distincts, des ensembles de données comprenant des champs de données sont triés par des valeurs de champs et divisés en partitions équilibrées dans des serveurs répartis. Les sous-ensembles de champs ayant la même valeur sont partitionnés ensemble. La présence de clés est déterminée pour les sous-ensembles sur chaque partition, et le nombre d'instances pour la clé sont agrégés pour des comptes de valeurs distincts exacts. Pour de multiples comptes distincts, les champs d'un ensemble de données sont combinés par des colonnes de champ non pivotantes. Des clés composées sont générées pour les champs combinés à partir d'identifiants de champs des champs et valeurs combinés d'un autre champ. Les totaux de valeurs uniques des champs combinés sont déterminés pour les valeurs dans le champ compté sur la base des clés composées.
Also published as
Latest bibliographic data on file with the International Bureau