Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the...
-
Upload
philippine-raynal -
Category
Documents
-
view
106 -
download
0
Transcript of Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the...
L’évolution du Web et les implications d’un crawler incrémental
Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina
Plan
Introduction Définition Types
Expérience Configuration Résultats
Architecture d’un Crawler Incrémental Conclusion
Introduction
Introduction
Qu’est-ce qu’un crawler ? Programme qui collecte automatiquement
des pages web pour construire un index ou une collection locale.
Fonctionnement d’un crawler
Généralement : Seed Urls Récupération des pages (à partir des
seed) Extraction des Urls contenues dans ces
pages Addition de celles-ci aux Urls à scanner
Illustration
Seed Urls
Index / collection locale
File de pages à visiter
Ajout dans l’index
Ajout des Urls récoltées lors du parcours des pages
Types différents de crawler
2 types : Le crawler periodique
Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée
Le crawler incrémental Continue à visiter les pages, même après
l’atteignabilité de la taille maximum de la collection, puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance».
Types différents de crawler
Le crawler incrémental est plus efficace que le crawler periodique. Par exemple le crawler incrémental
n’aura besoin que de vérifier les pages ayant changées (probabilité)
Donc la page à indexer sera indexée en moins de temps à l’aide de ce type de crawler
Expérience
Configuration
Configuration de l’Expérience
Questions importantes : Quelle est la fréquence de changement
d’une page ? Quelle est la durée de vie d’une page ? Combien de temps est nécessaire au
WEB pour changer 50 % de ces pages ?
Configuration de l’Expérience
Analysé 720’000 pages depuis 270 sites pendant 5 mois.
Séléction des sites faites selon un critère de « popularité » exemple: http://yahoo.com, http://microsoft.com ,
etc… Le nombre maximum de pages parcouru
depuis ces sites est de 3’000.
Expérience
Résultats
Résultats
Quelle est la fréquence de changement d’une page ? Si vous mesurez 5 changements et que
la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4 . Ce qui signifie que la page change tout les 4 jours.
Résultats
Résultats
Résultats
Quelle est la durée de vie d’une page?
Résultats
Quelle est la durée de vie d’une page? 2 méthodes différentes pour calculer
celle-ci : Calcul de la longueur normal (c’est-à-dire le
temps que la page se trouve dans la fenêtre) On calcule le temps comme 2s (où s est la
période de temps où la page est présente dans la fenêtre)
Résultats
Résultats
Résultats
Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? Remarque:
Lorsque une page disparaît de notre fenêtre d’analyse, elles sont considérées comme changée
Résultats
Architecture d’un Crawler Incrémental
Algorithme : Crawler Incrémental
Architecture
Conclusion
Conclusion
Nous venons de voir comment implémenter un crawler incrémental et comme nous l’avons vu celui-ci possède de nombreux avantages par rapport au crawler périodique
Références
« The Evolution of the Web and Implications for an Incremental Crawler » , Junghoo Cho, Hector Garcia-Molina
Cours d’algorithmes pour le Web 2006-2007, J.Rolim
http://en.wikipedia.org/wiki/Web_crawler