Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020115530 - APPROCHE PAR DISPERSION-COLLECTE POUR LE REGROUPEMENT PLAT POUR DES INTERROGATIONS DE RECHERCHE BASÉES SUR DU TEXTE FRÉQUENT

Numéro de publication WO/2020/115530
Date de publication 11.06.2020
N° de la demande internationale PCT/IB2018/059693
Date du dépôt international 06.12.2018
CIB
G06F 16/00 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
CPC
G06F 16/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
Déposants
  • SHARMA, Pratik [IN]/[IN]
Inventeurs
  • SHARMA, Pratik
Données relatives à la priorité
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) SCATTER-GATHER APPROACH TO FLAT CLUSTERING FOR FREQUENT TEXT BASED SEARCH QUERIES
(FR) APPROCHE PAR DISPERSION-COLLECTE POUR LE REGROUPEMENT PLAT POUR DES INTERROGATIONS DE RECHERCHE BASÉES SUR DU TEXTE FRÉQUENT
Abrégé
(EN)
In this invention we use scatter-gather approach to flat clustering for frequently used text based search queries. Now for a given set of documents we compute the Term-Document or Document-Term matrix which is a matrix that describes the frequency of terms that occur in a collection of documents. Now from the above Term-Document matrix we create a Term Frequency-Inverse Document Frequency (TF-IDF) matrix which is used to compute document similarity and create a flat set of clusters of documents which relate to each other. Now in the scatter-gather approach for a particular frequently used text based search query of a user we group the clusters of documents with relevant information and the resulting set is again clustered. The above process is repeated until a cluster of interest is found.
(FR)
Dans la présente invention, on utilise une approche par dispersion-collecte pour le regroupement plat pour des interrogations de recherche basées sur du texte utilisé fréquemment. Pour un ensemble donné de documents, on calcule la matrice terme-document ou document-terme qui est une matrice qui décrit la fréquence de termes qui apparaissent dans une collection de documents. À partir de la matrice terme-document ci-dessus, on crée une matrice fréquence de terme-fréquence inverse de document (TF-IDF) qui est utilisée pour calculer une similarité de documents et créer un ensemble plat de groupes de documents qui sont liés entre eux. Dans l'approche par dispersion-collecte pour une interrogation de recherche particulière basée sur du texte utilisé fréquemment d'un utilisateur, on groupe les groupes de documents avec des informations pertinentes et l'ensemble résultant subit de nouveau un regroupement. Le procédé ci-dessus est répété jusqu'à ce qu'un groupe d'intérêt soit découvert.
Dernières données bibliographiques dont dispose le Bureau international