Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the...

27
L’évolution du Web et les implications d’un crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina

Transcript of Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the...

Page 1: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

L’évolution du Web et les implications d’un crawler incrémental

Basé sur : «  The Evolution of the Web and Implications for an Incremental Crawler», Junghoo Cho et Hector Garcia-Molina

Page 2: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Plan

Introduction Définition Types

Expérience Configuration Résultats

Architecture d’un Crawler Incrémental Conclusion

Page 3: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Introduction

Page 4: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Introduction

Qu’est-ce qu’un crawler ? Programme qui collecte automatiquement

des pages web pour construire un index ou une collection locale.

Page 5: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Fonctionnement d’un crawler

Généralement : Seed Urls Récupération des pages (à partir des

seed) Extraction des Urls contenues dans ces

pages Addition de celles-ci aux Urls à scanner

Page 6: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Illustration

Seed Urls

Index / collection locale

File de pages à visiter

Ajout dans l’index

Ajout des Urls récoltées lors du parcours des pages

Page 7: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Types différents de crawler

2 types : Le crawler periodique

Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée

Le crawler incrémental Continue à visiter les pages, même après

l’atteignabilité de la taille maximum de la collection, puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance».

Page 8: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Types différents de crawler

Le crawler incrémental est plus efficace que le crawler periodique. Par exemple le crawler incrémental

n’aura besoin que de vérifier les pages ayant changées (probabilité)

Donc la page à indexer sera indexée en moins de temps à l’aide de ce type de crawler

Page 9: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Expérience

Configuration

Page 10: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Configuration de l’Expérience

Questions importantes : Quelle est la fréquence de changement

d’une page ? Quelle est la durée de vie d’une page ? Combien de temps est nécessaire au

WEB pour changer 50 % de ces pages ?

Page 11: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Configuration de l’Expérience

Analysé 720’000 pages depuis 270 sites pendant 5 mois.

Séléction des sites faites selon un critère de « popularité » exemple: http://yahoo.com, http://microsoft.com ,

etc… Le nombre maximum de pages parcouru

depuis ces sites est de 3’000.

Page 12: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Expérience

Résultats

Page 13: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Quelle est la fréquence de changement d’une page ? Si vous mesurez 5 changements et que

la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4 . Ce qui signifie que la page change tout les 4 jours.

Page 14: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Page 15: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Page 16: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Quelle est la durée de vie d’une page?

Page 17: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Quelle est la durée de vie d’une page? 2 méthodes différentes pour calculer

celle-ci : Calcul de la longueur normal (c’est-à-dire le

temps que la page se trouve dans la fenêtre) On calcule le temps comme 2s (où s est la

période de temps où la page est présente dans la fenêtre)

Page 18: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Page 19: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Page 20: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? Remarque:

Lorsque une page disparaît de notre fenêtre d’analyse, elles sont considérées comme changée

Page 21: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Résultats

Page 22: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Architecture d’un Crawler Incrémental

Page 23: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Algorithme : Crawler Incrémental

Page 24: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Architecture

Page 25: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Conclusion

Page 26: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Conclusion

Nous venons de voir comment implémenter un crawler incrémental et comme nous l’avons vu celui-ci possède de nombreux avantages par rapport au crawler périodique

Page 27: Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.

Références

« The Evolution of the Web and Implications for an Incremental Crawler » , Junghoo Cho, Hector Garcia-Molina

Cours d’algorithmes pour le Web 2006-2007, J.Rolim

http://en.wikipedia.org/wiki/Web_crawler