Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2019122011 - SYSTÈME INFORMATIQUE ET PROCÉDÉ D'EXTRACTION DE CONTENU DYNAMIQUE DE SITES WEB

Numéro de publication WO/2019/122011
Date de publication 27.06.2019
N° de la demande internationale PCT/EP2018/085983
Date du dépôt international 19.12.2018
CIB
G06F 16/958 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
90Détails des fonctions des bases de données indépendantes des types de données cherchés
95Recherche dans le Web
958Organisation ou gestion de contenu de sites Web, p.ex. publication, conservation de pages ou liens automatiques
G06F 16/951 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
90Détails des fonctions des bases de données indépendantes des types de données cherchés
95Recherche dans le Web
951Indexation; Techniques d’exploration du Web
CPC
G06F 16/951
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
90Details of database functions independent of the retrieved data types
95Retrieval from the web
951Indexing; Web crawling techniques
G06F 16/986
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
90Details of database functions independent of the retrieved data types
95Retrieval from the web
958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
986Document structures and storage, e.g. HTML extensions
Déposants
  • URBAN SOFTWARE INSTITUTE GMBH [DE]/[DE]
Inventeurs
  • BITTNER, Christopher
  • MÜLLER, Sebastian
Mandataires
  • BITTNER, Peter
  • ZAHN, Matthias
Données relatives à la priorité
17209553.121.12.2017EP
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) COMPUTER SYSTEM AND METHOD FOR EXTRACTING DYNAMIC CONTENT FROM WEBSITES
(FR) SYSTÈME INFORMATIQUE ET PROCÉDÉ D'EXTRACTION DE CONTENU DYNAMIQUE DE SITES WEB
Abrégé
(EN)
Computer system (100), computer-implemented method and computer program product are provided for extracting dynamic content data (221) from a website (220) in a machine- readable format. The system has an interface (110) to access configuration data (250) reflecting the structure of the website (220).The configuration data includes at least a website specific scraping script and one or more website specific XPath statements. Further, the interface receives a data retrieval request (210) specifying the website (220) and corresponding dynamic content data (221) to be retrieved. A scraper module (120) provides the scraping script (2050) for execution wherein the scraping script is configured to perform one or more parameterized navigation steps on the website (220) to access the dynamic content data (221). A script module (140) triggers execution of the scraping script and receives HTML/XML data associated with the dynamic content data from the website (220) in response to the scraping script execution. An XPath extraction module (150)extracts machine-readable content data (222) from the HTML/XML data wherein the XPath extraction module is pre-configured with the website specific XPath statements in accordance with the structure of the website (220).
(FR)
L'invention concerne un système informatique (100), un procédé mis en œuvre par ordinateur et un produit-programme informatique, permettant d'extraire des données de contenu dynamique (221) d'un site Web (220) dans un format lisible par machine. Le système comporte une interface (110) pour accéder à des données de configuration (250) reflétant la structure du site Web (220). Les données de configuration comprennent un script de capture de données spécifique à un site Web et une ou plusieurs instructions XPath spécifiques. En outre, l'interface reçoit une demande de récupération de données (210) spécifiant le site Web (220) et des données de contenu dynamique (221) correspondantes à récupérer. Un module de capture de données (120) fournit le script de capture de données (2050) en vue de son exécution, le script de capture de données étant configuré pour mettre en œuvre une ou plusieurs étapes de navigation paramétrées sur le site Web (220) pour accéder aux données de contenu dynamique (221). Un module de script (140) déclenche l'exécution du script de capture de données et reçoit du site Web (220) des données HTML/XML associées aux données de contenu dynamique en réponse à l'exécution du script de capture de données. Un module d'extraction XPath (150) extrait des données de contenu lisibles par machine (222) des données HTML/XML, le module d'extraction XPath étant préconfiguré selon les instructions XPath spécifiques à un site Web conformément à la structure du site Web (220).
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international