WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2001033345) SYSTEM AND METHOD FOR ENFORCING POLITENESS WHILE SCHEDULING DOWNLOADS IN A WEB CRAWLER
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2001/033345    International Application No.:    PCT/US2000/029497
Publication Date: 10.05.2001 International Filing Date: 26.10.2000
Chapter 2 Demand Filed:    31.05.2001    
IPC:
G06F 17/30 (2006.01)
Applicants: ALTA VISTA COMPANY [US/US]; 529 Bryant Street, Palo Alto, CA 94301 (US)
Inventors: NAJORK, Marc, A.; (US).
HEYDON, Clark, A.; (US)
Agent: WILLIAMS, Gary, S.; Pennie & Edmonds LLP, 1155 Avenue of the Americas, New York, NY 10036 (US)
Priority Data:
09/433,005 02.11.1999 US
Title (EN) SYSTEM AND METHOD FOR ENFORCING POLITENESS WHILE SCHEDULING DOWNLOADS IN A WEB CRAWLER
(FR) SYSTEME ET PROCEDE DE MISE EN APPLICATION DE POLITESSE AU COURS DE L'ORDONNANCEMENT DES TELECHARGEMENTS DANS UN MOTEUR DE RECHERCHE WEB
Abstract: front page image
(EN)A web crawler (102) downloads data sets from among a plurality of host computers (112). The web crawler enqueues (128) data set addresses in a set of queues, with all the data set addresses sharing a respective common host address being stored in a respective common one of the queues. Each non-empty queue is assigned a next download time. Multiple threads (130) substantially concurrently process the data set addresses in the queue. The number of queues is at least as great as the number of threads, and the threads are dynamically assigned to the queues. In particular, each thread selects a queue not being serviced by any of the other threads. The queue is selected in accordance with the next download times assigned to the queues. The data set corresponding to a data set address in the selected queue is downloaded and processed, and the data set address is dequeued from the selected queue. When the selected queue is not empty after the dequeuing step, it is assigned an updated download time.
(FR)L'invention concerne un moteur de recherche Web (102) qui télécharge des ensembles de données de plusieurs ordinateurs hôtes (112). Le moteur de recherche Web met en file d'attente (128) les adresses des ensembles de données dans un ensemble de files d'attente, toutes les adresses des ensembles de données qui partagent une adresse hôte respective commune étant stockées dans une file d'attente respective commune. Chaque file d'attente non vide se voit affecter un temps de téléchargement ultérieur. De multiples unités d'exécution (130) traitent quasiment en même temps les adresses des ensembles de données dans la file d'attente. Le nombre de files d'attente est au moins aussi élevé que le nombre d'unités d'exécution. Ces dernières sont assignées de manière dynamique aux files d'attente. Chaque unité d'exécution sélectionne notamment une file d'attente qui n'est pas utilisée par une autre unité. La file d'attente est sélectionnée conformément aux temps de téléchargement ultérieurs assignés aux files d'attente. L'ensemble de données correspondant à une adresse d'ensemble de données dans la file d'attente sélectionnée est téléchargée et traitée, et l'adresse d'ensemble de données est retirée de la file d'attente sélectionnée. Lorsque la file d'attente sélectionnée n'est pas vide suite à l'étape de retrait de la file d'attente, elle se voit assigner un nouveau temps de téléchargement mis à jour.
Designated States: JP.
European Patent Office (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE).
Publication Language: English (EN)
Filing Language: English (EN)