Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020115530 - SCATTER-GATHER APPROACH TO FLAT CLUSTERING FOR FREQUENT TEXT BASED SEARCH QUERIES

Publication Number WO/2020/115530
Publication Date 11.06.2020
International Application No. PCT/IB2018/059693
International Filing Date 06.12.2018
IPC
G06F 16/00 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
Applicants
  • SHARMA, Pratik [IN]/[IN]
Inventors
  • SHARMA, Pratik
Priority Data
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) SCATTER-GATHER APPROACH TO FLAT CLUSTERING FOR FREQUENT TEXT BASED SEARCH QUERIES
(FR) APPROCHE PAR DISPERSION-COLLECTE POUR LE REGROUPEMENT PLAT POUR DES INTERROGATIONS DE RECHERCHE BASÉES SUR DU TEXTE FRÉQUENT
Abstract
(EN)
In this invention we use scatter-gather approach to flat clustering for frequently used text based search queries. Now for a given set of documents we compute the Term-Document or Document-Term matrix which is a matrix that describes the frequency of terms that occur in a collection of documents. Now from the above Term-Document matrix we create a Term Frequency-Inverse Document Frequency (TF-IDF) matrix which is used to compute document similarity and create a flat set of clusters of documents which relate to each other. Now in the scatter-gather approach for a particular frequently used text based search query of a user we group the clusters of documents with relevant information and the resulting set is again clustered. The above process is repeated until a cluster of interest is found.
(FR)
Dans la présente invention, on utilise une approche par dispersion-collecte pour le regroupement plat pour des interrogations de recherche basées sur du texte utilisé fréquemment. Pour un ensemble donné de documents, on calcule la matrice terme-document ou document-terme qui est une matrice qui décrit la fréquence de termes qui apparaissent dans une collection de documents. À partir de la matrice terme-document ci-dessus, on crée une matrice fréquence de terme-fréquence inverse de document (TF-IDF) qui est utilisée pour calculer une similarité de documents et créer un ensemble plat de groupes de documents qui sont liés entre eux. Dans l'approche par dispersion-collecte pour une interrogation de recherche particulière basée sur du texte utilisé fréquemment d'un utilisateur, on groupe les groupes de documents avec des informations pertinentes et l'ensemble résultant subit de nouveau un regroupement. Le procédé ci-dessus est répété jusqu'à ce qu'un groupe d'intérêt soit découvert.
Latest bibliographic data on file with the International Bureau