Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk...

58
Chantier d’usage: NeoTEX B. Audeh, M. Beigbeder, C. Largeron Laboratoire Hubert Curien 7 juin 2017 1/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Transcript of Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk...

Page 1: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Chantier d’usage: NeoTEX

B. Audeh, M. Beigbeder, C. Largeron

Laboratoire Hubert Curien

7 juin 2017

1/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 2: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

L’équipe

Bissan Audeh, post-doctorante 10 moisseptembre 2016–juin 2017

Michel BeigbederÉcole des mines de Saint-Étienne, Laboratoire Hubert Curien

Christine LargeronUniversité de Saint-Étienne, Laboratoire Hubert Curien

Ayman Alazizi, stagiaire Master 2avril–août 2016

Diana Ramirez, stagiaire Master 2février–juin 2017

2/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 3: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Contexte: un néophyte

Exploration de documents Textuels d’un domaine par un Néophyte

Recommandation/recherche de documents pour l’initiation d’unerecherche. Le néophyte

ne connaît pas les mots-clés du domainene connaît pas les experts du domainene connaît pas les articles de référence

3/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 4: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Buts et défis du projet

Concevoir, implémenter, tester un cadre de travail et desmodèles de recherche orientés vers les besoins d’un néophyteDéfis

1 définir les besoins d’un néophyte

qu’est-ce qui est pertinent pour un néophyte?2 concevoir des modèles qui retrouvent les documents pertinents

au sens de 1.

3 tester

construire des vérités terrainsobtenir les données

4/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 5: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Plan

panorama des bibliothèques numériques (BN)état de l’artle système NeoTEXles vérités terrainsla construction du graphe de citationles modèlesles expériences

5/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 6: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Contexte: bibliothèques numériques (BN)

collecter les documentsmettre à disposition des documentsgérer les droitsgérer les usagesnumériserarchiver, préservercréer des méta-informations

rechercherrecommander

naviguer

6/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 7: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Contexte: une bibliothèque numérique

Recherche sur les méta-informationsauteur, titre, journal, date, ISSN, ISBN, etc.

recherche orientée vers ce que l’on connaît

plus récemment aussi sur le résumé ou sur le texte intégral

7/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 8: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Comparaison de quelques BN académiques (1/2): données

données de rech. références citations

Google Scholar universelle texte intégral références citations

Microsoft Academic universelle texte intégral références citations

CiteseerX informatique texte intégral références citations

ACM DL informatique texte intégral références citations

dblp informatique méta-informations − −Web of Science universelle méta-informations références citations

Vocabulaire:

références: liens sortants

citations: liens entrants

8/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 9: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Comparaison de quelques BN académiques (2/2): services

tri | présentation

Google Scholar par champ pert. | date

Microsoft Academic ± pert. | date | cit.

CiteseerX par champ pert. | date | cit.

ACM DL par champ pert. | date | cit. | usage

dblp par champ date

Web of Science par champ date | cit. | usage | auteur | venue

liens cliquablesraffinementsaccès aux contenus, versionsinformations sur les auteurscitations, références, co-citations, regroupementspanier, profil

9/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 10: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Google Scholar

10/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 11: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Microsoft Academic

11/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 12: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

CiteSeerX

12/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 13: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

ACM DL

13/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 14: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

dblp

14/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 15: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

État de l’art

15/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 16: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

État de l’art: travaux académiques

Retour sur les besoins du néophyte:il ne connaît pas les articles de référence sur le domaine

« domaine »: recherche d’information thématique« de référence »: utilisation des liens

de citations [Salton, 1963]

de co-autorat, co-citations [Beel, 2016]

composantes relationnelles dans les calculs de score

recommandation: basée sur les usages

travail proche [Raamkumar, 2017]

16/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 17: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

État de l’art: évaluation en recherche d’information

Évaluation en recherche d’informationdisponibilité de données

disponibilité des logiciels des méthodes à comparer

� en particulier pour les modèles de référence

mesures d’évaluation

campagnes d’évaluation

� besoins d’information (requêtes) et jugements de pertinence

� pas disponible ni pour NeoTEX, ni plus généralement pour

les BN

17/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 18: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Conclusion de l’état de l’art

Objectifs BN travaux académiquesBesoins des non nonnéophytesUtilisation de oui ouidonnées relationnellesÉvaluation ? pas de collection de test

Contributions:création de vérités terrains

construction de modèles de référence

18/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 19: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Système NeoTEX

19/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 20: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Modèle de RI

!"#$%&'()"#*+'*,&-./0*+0*(1%-)"#$*

234*45678*

91$%0*1#1)-:0*;-$<0*$'&*:0*("#%0#'*

Requête d'un neophyte

91$%0*+0*&<$':%-%$*=0"60>*

20/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 21: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Système NeoTEX

!"#$%#&'()&)$*+()&+(#",*--(#)&

./0&01234&

5*'6#()&7(*8(9&

:;)8(&;-;,"#(&<")=(&)%+&#(&$*-8(-%&

&1$*+()&

+(#",*-(#)&&

Requête d'un neophyte

:;)8()&'(&+=)%#8"8)&7(*2(9&

!*-)8+%$,*-&'%&>+"?@(&'(&$;8",*-)&

21/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 22: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Le graphe (orienté) de citation

nœudsles documents ISTEX

les documents cités par les documents ISTEX

arcs: lien (citations, références)Contribution: unification des nœuds

documents citants (ISTEX): identifiant ISTEX,

méta-informations

documents cités: méta-informations bruitées

22/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 23: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Les scores relationnels

degré entrant: SI

degré sortant: SO

PageRank: SPR

en perspective: d’autres mesures de centralité

23/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 24: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Les modèles

liste L des 1000 premiers documents classés selon leur score decontenu (Sc)les listes reclassées selon tel ou tel score (SI , SO ou SPR)les listes agrégéesContribution: les listes basées sur l’apprentissage automatique

24/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 25: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

L’évaluation

Contributionsles besoins d’information et les requêtes

issues de 25 thèses en Informatique soutenues en 2006

requêtes construites manuellement à partir des titres, résumés,

et mots-clés des thèses

les vérités terrains (les jugements de pertinence)thèses la section « références » des 25 thèses

manuel jugement d’un expert

réputation nombre de citations en 2016

thèses ∪ réputation

25/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 26: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Plan

Construction du grapheLes modèles, en particulier ceux qui utilisent de l’apprentissageLes expériences et leurs résultats

!"#$%#&'()&)$*+()&+(#",*--(#)&

./0&01234&

5*'6#()&7(*8(9&

:;)8(&;-;,"#(&<")=(&)%+&#(&$*-8(-%&

&1$*+()&

+(#",*-(#)&&

Requête d'un neophyte

:;)8()&'(&+=)%#8"8)&7(*2(9&

!*-)8+%$,*-&'%&>+"?@(&'(&$;8",*-)&

26/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 27: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Construction du graphe: les données

Extrait des données téléchargées au format Json:{

"corpusName": "elsevier",

"author": ...

"title": "Nuclear antigens in the HeLa cell cycle"...

"refBibs": [

"title": "Multiplicaiton and division in Mammalian Cells",

...

]

}

...

{

...

"title": "Multiplication and Division in Mammalian Cells",

...

}

...

7 316 816 titres citants117 946 803 titres cités125 263 619 titres

Volume de données: 9,6 Gio (1950–2005, titre de plus de 6caractères et moins de 300 caractères)27/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 28: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Le but

0 000 000 100 0 source world christian trends demographic futures for christianity and the world religions todd m johnson 1

1 000 000 clinical perspectives 593 adults with cystic fibrosis meeting the challenge bye reviews 598 diagnosis of primary hyperparathyroidism controversies practical issues and the need for australian guidelines

2 000 000 miles of fluid evaluation in city bus automatic transmission

. . . [...]

3 486 0956 a study of the conditions and mechanisms of the diphenylamine reaction for the colorimetric estimation of deoxyribonucleic acid

. . . [...]

108 310 1956 a study of the conditions and mechanism of the diphenylamine reaction for the colorimetric estimation of deoxyribonucleic acid

. . . [...]

108 313 1956 a study of the mechanism of the diphenylamine reaction for the colorimetric estimation of deoxyribonucleic acid

. . . [...]

46 852 687 zzzv and aaaa2 v a decade later he spoke of ashmole as my honoured friend mr ashmole and commended his antiquarian inquiries especially revealed in ashmole s

28/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 29: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Le moyen. . . qui n’en est pas un

Le but: reconnaître les titres qui se ressemblentune première étape, de complexité linéaire (O(n))

normaliser

c’est-à-dire remplacer les caractères non alphanumériques par

des espaces, conversions en minuscules, compactage des

espaces

une deuxième étape, de complexité pseudo-linéaire(O(n log n))

pour trouver les duplicats exacts

résultat: 46 852 688 titres normalisés uniques

une troisième étape, de complexité quadratique (O(n2))comparer chaque paire selon une similarité (Jaccard,

Levenshtein, etc.)

temps à raison de 20–30µs la comparaison: un millénaire

et choisir un seuil de similarité

29/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 30: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard: échantillon aléatoire

Histogramme de similarité de Jaccard sur un échantillon de1 milliard de paires tirées au hasard850 millions entre 0 et 1/100, et 100 millions entre 1/100 et 2/100

30/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 31: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard ≥ 0.1: échantillon

aléatoire

Zoom de l’histogramme de similarité de Jaccard avec s ≥ 1/10

31/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 32: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard ≥ 0.3: échantillon

aléatoire

Zoom de l’histogramme de similarité de Jaccard avec s ≥ 3/10

32/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 33: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Le moyen

Le hashage sensible à la localité: Locality sensitive hashing[1998-ACM Th. of computing-Indyk Motwani]

[1999-VLDB-Gionis Indyk Motwani]

prendre r « extraits » des objets à comparersi ces r « extraits » sont les mêmes (hashage classique) pourdeux objets, c’est un indice qu’il sont peut-être proches et ilfaudra les comparerle faire b fois (bande)les « extraits » doivent être choisis en cohérence avec unemesure de similaritépour la similarité de Jaccard: le hashage par minimum (Min

Hashing)[1998-ACM Th. of computing-Broder Charikar Frieze Mitzenmacher]

probabilité que deux objets de similarité x partagent leurs r

« extraits » dans au moins une des b bandes:

1 − (1 − xr )b

33/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 34: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Choix du nombre de bandes b et de lignes par bande r

34/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 35: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard: échantillon LSH

Histogramme de similarité de Jaccard sur les paires sélectionnéespar le hashage sensible à la localité.

35/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 36: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard: interpolation de

l’échantillon LSH

Histogramme de similarité de Jaccard sur l’interpolation à partir despaires sélectionnées par le hashage sensible à la localité.

36/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 37: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard ≥ 0.1: interpolation de

l’échantillon LSH

Histogramme de similarité de Jaccard sur l’interpolation à partir despaires sélectionnées par le hashage sensible à la localité.

37/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 38: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Histogramme similarité de Jaccard ≥ 0.4: interpolation de

l’échantillon LSH

Histogramme de similarité de Jaccard sur l’interpolation à partir despaires sélectionnées par le hashage sensible à la localité.

38/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 39: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Application du seuil et recherche des composantes connexes

seuillage: ne sont conservées parmi les paires candidates quecelles de similarité supérieure au seuil choisi (0,85 dans notreexpérience)recherche des composantes connexes pour obtenir une partitionce qui peut amener à mettre dans un même sous-ensemble deux

éléments qui ont une similarité de Jaccard inférieure au seuil choisi.

Effectif taille de la

composante connexe

3 522 922 2

1 236 552 3

576 094 4

309 439 5

181 799 6

114 913 7

76 098 8

52 425 9

37 719 10

. . . . . .

Effectif taille de la

composante connexe

. . . . . .

1 647

1 709

1 728

1 818

1 880

1 933

1 981

1 1394

1 2077

39/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 40: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Un extrait d’une composante connexe

Dd8c: 0951 protein measurement with the folin phenol reagent

D12f7914: i951 protein measurement with the folin phenol reagent

D153df04: i protein measurement with the folin phenol reagent

D1e9c0d4: protein measurement with the folin protein phenol reagent

D1e9d686: protein protein measurement with the folin phenol reagent

D405429: a protein measurement with the folin phenol reagent

D12fac0d: i a all protein measurement with the folin phenol reagent

D154347c: i rotein measurement with the folin phenol reagent

D159a4b0: j protein measurement with the folin phenol reagent

D171334d: l protein measurement with the folin phenol reagent

D1e99d7a: protein in measurement with the folin phenol reagent

D1e9bdec: protein measuremennt with the folin phenol reagent

D1e9be32: protein measurement reagent with the folin phenol reagent

D1e9bed8: protein measurement with ent with the folin phenol reagent

D1e9bfdb: protein measurement with the folin in phenol reagent

D1e9bfdc: protein measurement with the folini phenol reagent

D1e9bfe0: protein measurement with the folinn phenol reagent

D1e9bfee: protein measurement with the folin phenenol reagent

D1e9c002: protein measurement with the folin phenol phenol reagent

D1e9c02a: protein measurement with the folin phenol reagent

D1e9c085: protein measurement with the folin phenol reagent protein measurement

with the folin phenol reagent

D1e9c0f5: protein measurement with the foli phenol reagent

D1e9c13d: protein measurement with the protein folin phenol reagent

...40/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 41: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

Implémentation et ressources informatiques

Pour 47 millions de titres sans duplicats exactsconstruction des 6-grammes

3,8 Gio 56 Gio 15 min

hashage des 6-grammes56 Gio 31 Gio 14 min

tri31 Gio 31 Gio 16 min mémoire centrale:. . .

hashage par minimum et hashage sensible à la localité31 Gio 7 Gio 30min mémoire centrale: 18 Gio

Recherche des candidats: même hash dans la même bande (tri)7 Gio 7 Gio 5min

Calcul des similarités de Jaccard des paires candidates, seuillage7 Gio 4 Gio 7 h 26 min

Calcul des composantes connexes4 Gio 0,2 Gio 6 min

41/1 B. Audeh, M. Beigbeder, C. Largeron Chantier d’usage: NeoTEX

Page 42: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

!"#$%&'()'*+',(

-*.#$/012*.(30(4/567'(3'(18$52*.#(

-59109(3'#(#1*/'#(/'952*..'9#(

:;<(<!+=>(

?*3%9'#()'*$',(

@8#$'(8.8259'(A5#B'(#0/(9'(1*.$'.0(

(!1*/'#(

/'952*.'9#((

4&5+67&()8+$($&09":7&(

@8#$'#(3'(/B#09$5$#()'*+',(

;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

C(DEFDGFHDCE(

Page 43: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

?*3%9'#(ICJ(-*.$'.0K(/'195##'&'.$K(544/'452*.( 4#$C( D0E(

C( 3L(

H( 3C(

M( 3MDD(

N( 3H(

MD( 3EOM(

:;<(<!+=>(

4#$C( D0E( FEG5>)H(

C( 3C( DPOL(

H( 3H( DPEQ(

M( 3M( DPED(

CDDD( 3CDDD( DPHN(

@(

<.R3'4/''(S'R/5.T(

U0$R3'4/''(S'R/5.T(

;54'(S5.T(S'R/5.T(

4#$C( D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

4#$C( D0E(

C( 3LMH(

H( 3CD(

MD( 3C(

4#$C( D0E(

C( 3GL(

H( 3EE(

MD( 3OEM(

+*6(MD(

+*6(MD(

+*6(MD(

BI(

BJ(

BK4(

4#$C( D0E(

C( 3C(

H( 3H(

MD( 3MD(

+*6(MD(

B!(

4#$C( D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

B!LJ(

B!LK4(4#$C( D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

B!LI(

H(

(!1*/'#(

/'952*.'9#((

B!LILJLK4(

4&5+67&()8+$($&09":7&(

;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 44: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

:66/'.2##54'(#06'/V8#B(

((JAM&E%N(

(

;/B38/'(#8(0.(3*10&'.$(!('#$(6'/2.'.$(6*0/(0.'(/'W0X$'("#((

( ( ( ((

Ê(q,d)! {0,1}

M(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 45: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

Y*/&598#52*.(30(&*3%9'(

•  Z$56'(C[(:66/'.2##54'(:(65/2/(3\0.('.#'&A9'(3'(1*069'#(I"$!JK(*](175W0'(1*069'('#$(3B1/8$(65/(9'#(#1*/'#(

–  %&'"$!(#[(#1*/'(3'(6'/2.'.1'(I<!+=>(:;<J#–  %)'!(#[(8.R3'4/''#30(3*10&'.$(3 # ##–  %*#'!(([(*0$R3'4/''#30(3*10&'.$(3 # ###–  %+,'!(-(654'/5.T(30(3*10&'.$(3 ( #(

'$(65/(9'(VB/8$B($'//58.(–  ((

(1*.#$/08/'(0.(&*3'9(6*0/(6/B38/'(

E(q,d)! {0,1}

Ê(q,d)! {0,1}N(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$((

(DEFDGFHDCE(

Page 46: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

Y*/&598#52*.(30(&*3%9'(

•  Z$56'(H[(^298#52*.(30(&*3%9'(;*0/(0.'(.*0V'99'(/'W0X$'K(6/B38/'(95(6'/2.'.1'(3\0.(3*10&'.$(6*0/(9'W0'9(*.(38#6*#'(3'#(#1*/'#((•  +/*8#(&B$7*3'#(3\566/'.2##54'([(

–  :/A/'#(3'(3B18#8*.(I:_J(–  S5.3*&(Y*/'#$(ISYJ(–  !`?(

L(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 47: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

G5>)H( FE( FI( FJ( FK4( 2?( 21( 24( 21O4( P?( P1( P4( P1O4(

IWCK(3CJ( DPOL( MH( LGG( DPMHM( D( D( C( C( a( a( a( a(

IWCK(3HJ( DPEQ( HM( GL( DPOEMG( C( D( D( D( a( a( a( a(

IWCK(3MJ( DPED( GE( QO( DPQME( D( D( D( D( a( a( a( a(

IWHDK(3HD(DDDJ( DPHN( ODG( MDD( DPEGH( D( D( C( C( a( a( a( a(

:;<(<!+=>(

4#$C( D0E( FEG5>)H(

C( 3C( DPOL(

H( 3H( DPEQ(

M( 3M( DPED(

HD(DDD( 3HD(DDD( DPHN(

@(

`B/8$B($'//58.(?5.0'9(

`B/8$B($'//58.((+7%#'#(

`B/8$B($'//58.((SB60$52*.(

`B/8$B($'//58.(+7%#'#(^(SB6P(

5Q>(5R>(<<<(5RS(

?*3%9'#(IHJ(:66/'.2##54'(!06'/V8#B(IB$56'(CJ(

G(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 48: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

G5>)H( FE( FI( FJ( FK4( P?( P1( P4( P1OK( 2?( 21( 24( 21O4(

IWHDK(3CJ( DPOL( MH( LGG( DPMHM( a( a( a( a(

IWHDK(3HJ( DPEQ( HM( GL( DPOEMG( a( a( a( a(

IWHDK(3MJ( DPED( GE( QO( DPQME( a( a( a( a(

IWHLK(3L(DDDJ( DPHN( ODG( MDD( DPEGH( a( a( a( a(

:;<(<!+=>(

4#$C( D0E( FEG5>)H(

C( 3C( DPOL(

H( 3H( DPEQ(

M( 3M( DPED(

L(DDD( 3L(DDD( DPHN(

@(

5RS>(5RQ>(<<<(5RT(

?*3'9#(IHJ(:66/'.2##54'(!06'/V8#B(IB$56'(HJ(

E(

?*3%9'('.$/58.B(5V'1(

=?(

?*3%9'('.$/58.B(5V'1(

=+(

?*3%9'('.$/58.B(5V'1(

=S(

?*3%9'('.$/58.B(5V'1(

=+^S(

;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 49: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

G5>)H( FE( FI( FJ( FK4( P?(

IWCK(3CJ( DPOL( MH( LGG( DPMHM( C(

IWCK(3HJ( DPEQ( HM( GL( DPOEMG( D(

IWCK(3MJ( DPED( GE( QO( DPQME( C(

IWCK(3CDDDJ( DPHN( ODG( MDD( DPEGH( D(

<!+=>(:;<(

4#$C( D0E( FEG5>)H(

C( 3C( DPOL(

H( 3H( DPEQ(

M( 3M( DPED(

CDDD( 3CDDD( DPHN(

@(

?*3%9'#(IHJ(:66/'.2##54'(!06'/V8#B(IB$56'(HJ(

?*3%9'('.$/58.B(5V'1(

=?(

J9%0$(Q.(U@V7&'#-&(;00VW&$(

4#$C( D0E(

C( 3C(

H( 3M(

M( 3QDD(

MD( 3LD(

?@bcb=?(

SB#09$5$(d.59(

+*6(MD(*]((e?fC(

c**9B5.(E(

5(

;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 50: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

G5>)H( FE( FI( FJ( FK4( KX?(

IWCK(3CJ( DPOL( MH( LGG( DPMHM( DKG(

IWCK(3HJ( DPEQ( HM( GL( DPOEMG( DKH(

IWCK(3MJ( DPED( GE( QO( DPQME( DKE(

IWCK(3CDDDJ( DPHN( ODG( MDD( DPEGH( DKG(

<!+=>(:;<(

4#$C( D0E( FEG5>)H(

C( 3C( DPOL(

H( 3H( DPEQ(

M( 3M( DPED(

CDDD( 3CDDD( DPHN(

@(

?*3%9'#(IHJ(:66/'.2##54'(!06'/V8#B(IB$56'(HJ(

5(

:/A/'(3'(3B18#8*.(

'.$/58.B(5V'1(=?(

J9%0$(R.(4&EV#,,&Y&$7(9#'(9'0A#A@V@7W((

4#$C( D0E(

C( 3M(((

H( 3C(

M( 3CDDD(

MD( 3H(

:_b;b=?(

SB#09$5$(d.59(

+*6(MD((($/8B#(65/(;g?(608#(65/(!-(

;/*A5A898$B( Q(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 51: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

B!LILJLK4(D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

:_b;b=?((

:_b;b=+((

:_b;b=;((

:_b;b=+^;((

D0E( 4&V(

3C( C(

3H( C(

3M( C(

3MD( D(

D0E( 4&V(

3C( C(

3H( C(

3M( C(

3MD( D(

D0E( 4&V(

3C( D(

3H( D(

3M( D(

3MD( D(

D0E(

C( 3L(

H( 3C(

MD( 3EOM(

D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

D0E(

C( 3LMH(

H( 3CD(

MD( 3C(

D0E(

C( 3GL(

H( 3EE(

MD( 3OEM(

BI( BJ( BK4(D0E(

C( 3C(

H( 3H(

MD( 3MD(

B!(

D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

B!LJ( B!LK4(D0E(

C( 3L(

H( 3MDD(

MD( 3EM(

B!LI(

=V59052*.(

`B/8$B($'//58.((+7%#'#(

`B/8$B($'//58.((SB60$52*.(

`B/8$B($'//58.(+7%#'(^(SB6P(

D0E( 4&V(

3C( D(

3H( C(

3M( D(

3MD( D(`B/8$B($'//58.(

?5.0'9(

B4(_*1(

C( 3CE(

H( 3NH(

MD( 3HMH(

:9B5$*8/'(

)0E(

C( 3L(

H( 3MDD(

MD( 3EM(

)0E(

C( 3LH(

H( 3ED(

MD( 3QH(

)0E(

C( 3C(

H( 3MEO(

MD( 3Q(

)0E(

C( 3CC(

H( 3GLL(

MD( 3QOO(

?@bcb=?((

?@bcb=+((

?@bcb=;((

?@bcb=+^;((

)0E(

C( 3EL(

H( 3QEL(

MD( 3NLG(

)0E(

C( 3MLG(

H( 3OL(

MD( 3QL(

)0E(

C( 3CNL(

H( 3HLE(

MD( 3CEG(

)0E(

C( 3CCQ(

H( 3HM(

MD( 3LMO(

:_(hh(!`?(hh(Y:(

CD(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 52: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

=V59052*.(•  _5$5(– ?B$53*..B'#(3\<!+=>(3'(CQLD(i(HDDL(ICO(&8998*.#(3*1#J(

– S'W0X$'#[(HL(#0j'$#(3'($7%#'(I<.k*/&52W0'(HDDGJ(•  :66/'.2##54'(#066'/V8#B(

•  ?*3%9'#($'#$B#(–  :/A/'(3'(3B18#8*.(–  !`?(–  Y*/X$#(59B5$*8/'#(

•  Z175.299*.#(–  HD(/'W0X$'#(3\566/'.2##54'(–  L(/'W0X$'#(3'($'#$((–  `598352*.(1/*8#B'(ILRk*93J(

CC(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 53: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

SB#09$5$#(UZY&#,+'&! 1"[,&,! ?=/! 4W9+7#%0$!

@-! CKEC! CEKND! NKND!

@S! R( DKEG(( LKMD(@<! CKQM! GKGL! \]>]\!@U! CKDE! HKLG! HOKND!@;! HKMG! GKGL! MGKDD!@-l<! R>]^! R\>TR! MDKHE!@-lU! CKLD! COKQH! HNKHE!@-l;S! HKMG! HMKLH! HOKGE!

@-l<lUl;S! HKLE! HMKLH! MLKMM!:_b;b=?( CKEC! CEKND! NKND!:_b;b=+( CKEC! CEKND! NKND!:_b;b=S( HKMG! HHKEG! HMKGD!:_b;b=+^S( HKMG! HHKEG! HMKEM!SYbcb=S( HOKHE!SYbcb=+^S( HOKHE!

CH(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 54: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

SB#09$5$#(

CM(

;8#$'#(3\5&B98*/52*.(65/(/566*/$(50(6/*A9%&'(3\B175.299*.#(3B#BW0898A/B#([(•  6/*1B30/'(3'(/BBW0898A/54'(3'#(195##'#(•  8.$/*308/'(3'#(1*m$#(3\'//'0/(I6B.598#'/(9'(k50,(.B452kJ(

(

D(

DKL(

C(

CKL(

H(

HKL(

_?=K(

+7'#8#(

@ -(

@ <( @ U(

@ ;S (

@ -l<(

@ -lU(

:_b;

b=+^

S(

:_b;

b=S(

:_b;

b=+(

:_b;

b=?(

@ -l;

S (

@ -l<lU

l;S (

;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 55: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

-*.190#8*.(

•  )'*+',(6*0/(<!+=>([(3'(.*0V'99'#(k*.12*..598$B#(6*0/(9\0298#5$'0/((– n/567'(3'(18$52*.#[(6'/&'$(3\5##*18'/(i(175W0'(3*10&'.$[(.*&A/'(3'(/BkB/'.1'#K(3'((18$52*.#('$(654'/5.T(-'#E&(`(V#(E0VV&E%0$(@$7W-'#$7(V&,('WNW'&$E&,(&7(`(a'0A@)(

– Y*0/.8/(i(0.(0298#5$'0/(3'#(98#$'#(3\5/219'#(3'(/BkB/'.1'(#'9*.(690#8'0/#(6*8.$#(3'(V0'(

CN(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 56: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

-*.190#8*.(•  )'*+',(6*0/(<!+=>([(9\5/210952*.(3'(95(1*99'12*.(<!+=>(5V'1(_c@;(6*0/(6/*308/'(3'(.*0V'50,(5o/8A0$#(6/B3812k#(((

•  <&651$(k51$*/[( ((–  159109(A5#B(#0/(9'(4/567'K(1*&65/58#*.(5V'1(pU!(Rq(k*/$'(1*//B952*.(

•  ;*6095/8$B((3'#(50$'0/#(I_c@;J[((–  )A(3'(60A98#K(1*R50$'0/#K(5.18'..'$B(

•  ?092R38#18698.5/8$B[((–  -5$B4*/8'#(pU!(3\<!+=>(–  :0$/'#(/'##*0/1'#(I$*(3*(<!+=>H(1k(n099"J(

•  %./&0120314567892:1;031456#'<5#!5-#&5221=5;1456#)%>?@A#&B#C9D1&#(##–  ,E3359;&E#3/F164"9E##–  >5.0&#G5!E2$#HIJ##

CL(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 57: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

;'/#6'12V'#(•  =V59052*.(30(#"#$%&'()'*+',(

–  -7*8,(30(3*&58.'(•  :1$0'99'&'.$[(<.k*/&52W0'(•  =.(1*0/#[(!18'.1'(3'(95(V8'(

•  n/567'(–  -*.#$/012*.('$(BV59052*.(30(4/567'(

•  17*8,(3'#(65/5&%$/'#(6*0/(9'(@!r(•  56698W0'/(95(&B$7*3'(#0/($*0$'(95(1*99'12*.(<!+=>(Is(0.'(#'&58.'J(•  98'/(5V'1(9'#(83'.2d5.$#(<!+=>(I<!+=>H[(1kP(-<@@=>J((•  V8#0598#'/(9'(4/567'(3'(V*8#8.54'(I/BkB/'.1'#F18$52*.#J(3\0.(3*10&'.$(3*..B(6*0/(6'/&'o/'(0.'(/'17'/17'(8$B/52V'(65/(9\0298#5$'0/(I)'*+',HaJ(

•  1*.#$/08/'(9'(4/567'(3\50$'0/#(I$/%#(38t189'R<!+=>HJ((–  @8'/(i((3\50$/'#(1*99'12*.#[(65/(','&69'(3A96K(:-?(6*0/(9\8.k*/&52W0'(

CG(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(

Page 58: Chantier d'usage: NeoTEX...[1998-ACM Th. of computing-Indyk Motwani] [1999-VLDB-Gionis Indyk Motwani] prendre r «extraits»desobjetsàcomparer si ces r «extraits»sontlesmêmes(hashage

!"#$%&'()*+,#-&.(/&0123((

?'/18(

((

u0'#2*.#a(

CE(;<(=+)&">(?<(;&@-A&)&'>(!<(B#'-&'0$(((

DEFDGFHDCE(