Analyse en ligne (OLAP) de documents

60
Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

description

Analyse en ligne (OLAP) de documents. Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste. Plan. Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives. - PowerPoint PPT Presentation

Transcript of Analyse en ligne (OLAP) de documents

Soutenance de thèse, Décembre 2007

Analyse en ligne (OLAP) de documents

Ronan TournierTravaux de thèse

Sous la direction de Gilles ZurfluhEncadré par : Franck Ravat et Olivier Teste

Analyse en ligne (OLAP) de documentsDécembre 2007

2IRIT, SIG/ED

Plan

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

3IRIT, SIG/ED

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ETL

Sources

DECIDEUR

Vue unifiéeStructuration

multidimensionnelle

Contexte (1/6)

Les systèmes d’aide à la décision

Cadre de la thèse

XML

XML

Analyse en ligne (OLAP) de documentsDécembre 2007

4IRIT, SIG/ED

Contexte (2/6)

Analyse multidimensionnelle

De

llP

ow

erEd

ge

New-YorkNov.05

MAGASIN

DATES

VENTESMontants, Quantités

Londres

Toulouse

Paris

France

Angleterre

USA

Europe

Amerique N.

IBM

Sys

tem

X

Alie

nw

are

Au

rora

Su

nU

ltra

Déc.05

Jan.06

Fév.06

2005

2006

PR

OD

UIT

S

Sta

tion

Serve

ur

VillePaysContinent

Produit

Type

Mois Année

1 1 3 1

2200 3100 4350 1900

2 0 0 4

4400 0 0 7600

2 0 7 6

4400 0 10150 11400

7 9 0 1

15400 27900 0 190

1

1900

QuantitéMontant

Analyse en ligne (OLAP) de documentsDécembre 2007

5IRIT, SIG/ED

Contexte (3/6)

Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un

système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée

Mais Systèmes OLAP: données numériques Documents = données textuelles

Analyse en ligne (OLAP) de documentsDécembre 2007

6IRIT, SIG/ED

Contexte (4/6)

XML: permet de structurer des documentsExtended Markup Language

Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure

Analyse en ligne (OLAP) de documentsDécembre 2007

7IRIT, SIG/ED

Contexte (5/6)

XML: exemple de document

<These> <Contenu>

<Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1">

<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>

</Section> <Section Titre="Titre de la section 1.2">

… </Section></Chapitre><Chapitre Titre="Titre du chapitre 2"> …</Chapitre>

</Contenu></These>

These

Contenu

ChapitreTitre

SectionTitre

Paragraphe

Type

Titre

Analyse en ligne (OLAP) de documentsDécembre 2007

8IRIT, SIG/ED

Contexte (6/6)

Analyse multidimensionnelleDe l’analyse numérique…

Vers l’analyse non numérique

Sujet des publications

Nombre de publications par auteur Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK   2 1 -

ICEIS   1 3 -

CAiSE   - 1 2

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK 

XML, Temporel

Entrepôts de données

-

ICEIS 

XML, BD temporelles

XML, Fouille, Contraintes

-

CAiSE 

-Entrepôts de

donnéesModèle conceptuel, Fouille de données

Sujets des 2publications

Analyse en ligne (OLAP) de documentsDécembre 2007

9IRIT, SIG/ED

Problématique

MaisComment analyser données textuelles ?Comment représenter les structures ?Comment alimenter ces structures ?

But : Analyser 100% des données d’un SIDonnées transactionnellesDocuments XML

Analyse en ligne (OLAP) de documentsDécembre 2007

10IRIT, SIG/ED

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ETL

Sources

DECIDEUR

Vue unifiéeStructuration

multidimensionnelle

État de l’art (1/3)

Les systèmes d’aide à la décision

XML XML XML

Analyse en ligne (OLAP) de documentsDécembre 2007

11IRIT, SIG/ED

État de l’art (2/3)

Entrepôts et XML Entrepôts de données XML [Oracle]…

Pas d’intégration de documents Entrepôts de documents XML [Xylème]…

Pas destinés à l’analyse

ENTREPÔTDE DONNEES

XML

Analyse en ligne (OLAP) de documentsDécembre 2007

12IRIT, SIG/ED

État de l’art (2/3)

Magasins et XML Intégration de données XML [Golfarelli-01]…

Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]…

Grande redondance dans les données

MAGASIN DEDONNEES (BDM)

XML

Analyse en ligne (OLAP) de documentsDécembre 2007

13IRIT, SIG/ED

État de l’art (3/3)

Analyse et XML Analyse de documents [McCabe-00]…

Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles

RESTITUTIONET ANALYSE

XML

Analyse en ligne (OLAP) de documentsDécembre 2007

14IRIT, SIG/ED

État de l’art (3/3)

Actuellement OLAP ne gère pas Données textuelles Structure Contenu

Objectif : Analyse OLAP de documents

Analyse en ligne (OLAP) de documentsDécembre 2007

15IRIT, SIG/ED

Plan

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

16IRIT, SIG/ED

Modèle conceptuel (1/7)

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ET

L

Sources

DECIDEUR

Analyse en ligne (OLAP) de documentsDécembre 2007

17IRIT, SIG/ED

Modèle conceptuel (2/7)

Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données

Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse

Analyse en ligne (OLAP) de documentsDécembre 2007

18IRIT, SIG/ED

Modèle conceptuel (3/7)

Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse

Analyse en ligne (OLAP) de documentsDécembre 2007

19IRIT, SIG/ED

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Modèle conceptuel (4/7)

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble

Analyse en ligne (OLAP) de documentsDécembre 2007

20IRIT, SIG/ED

Attribut Faible = complément sémantique d’un paramètre

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Modèle conceptuel (5/7)

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies

Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles

Paramètre = niveau de granularité d’analyse

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Analyse en ligne (OLAP) de documentsDécembre 2007

21IRIT, SIG/ED

Modèle conceptuel (6/7)

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances

Instance Auteur Nom Statut Equipe Instituti1 Au1 Ronan Tournier ATER SIG/ED IRIT

Exemple d’instance d’auteur

Analyse en ligne (OLAP) de documentsDécembre 2007

22IRIT, SIG/ED

Modèle conceptuel (7/7)

Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens

intra ou inter documents

DATESCONFERENCESARTICLES AUTEURSARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

RéférenceDATES

CONFERENCES

ARTICLES

AUTEURS

Analyse en ligne (OLAP) de documentsDécembre 2007

23IRIT, SIG/ED

Exemple

Analyse d’articles scientifiques et de projets

INSTITUTS

Nom

Institut Pays

HI

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

RAPPORTSHR

Titre_R

RapportType

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Référence

Analyse en ligne (OLAP) de documentsDécembre 2007

24IRIT, SIG/ED

Plan

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

25IRIT, SIG/ED

Fonction d’agrégation (1/6)

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ET

L

Sources

DECIDEUR

AGREGATION

Analyse en ligne (OLAP) de documentsDécembre 2007

26IRIT, SIG/ED

Fonction d’agrégation (2/6)

Principe d’agrégationExemple de somme

1 1 3 1

2200 3100 4350 1900

2 0 0 4

4400 0 0 7600

2 0 7 6

4400 0 10150 11400

7 9 0 1

15400 27900 0 1900

1 1 3 1

2 0 0 4

2 0 7 6

7 9 0 1

Analyse en ligne (OLAP) de documentsDécembre 2007

27IRIT, SIG/ED

Fonction d’agrégation (3/6)

ProblématiqueAgréger des données textuelles

Reconstituer une règle d’agrégationRègle d’agrégation: ontologie

Ontologie légère [Lassila-01]

Ontologie de domaine

Analyse en ligne (OLAP) de documentsDécembre 2007

28IRIT, SIG/ED

Fonction d’agrégation (4/6)

Exemple d’ontologie (SI)Information Systems

Document warehouse

Conceptual model

Data warehouse

Database

OLAP

ProcessingStorage

Design

Logical

SnowflakeDFM YAM² Star ROLAP MOLAP OOLAP

Architecture

Methodology

OLTP

...

...

...

.........

... ...

... ... ...

... = noeuds non représentés

Feuilles

Racine

Arc

Noeud

Analyse en ligne (OLAP) de documentsDécembre 2007

29IRIT, SIG/ED

Fonction d’agrégation (5/6)

Exemple d’agrégation

LCA (Design, Processing) = OLAP

D=3

D=1Distance (Design, Processing) = 3

Entrée { (Design, d=0), (Processing, d=0) }

Sortie (OLAP, d=3)

Analyse en ligne (OLAP) de documentsDécembre 2007

30IRIT, SIG/ED

Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds

AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine

Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3)

Fonction d’agrégation (6/6)

Analyse en ligne (OLAP) de documentsDécembre 2007

31IRIT, SIG/ED

Opérations de manipulation (1/6)

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ET

L

Sources

DECIDEUR

MANIPULATION

Analyse en ligne (OLAP) de documentsDécembre 2007

32IRIT, SIG/ED

Opérations de manipulation (2/6)

But: « Manipuler une galaxie »

Opérations OLAP

Liens pour naviguer au sein des données

Analyse en ligne (OLAP) de documentsDécembre 2007

33IRIT, SIG/ED

Opérations de manipulation (3/6)

Opérations OLAP [Ravat-07e] revisitéesFocalisationRestrictionForageRotation

Analyse en ligne (OLAP) de documentsDécembre 2007

34IRIT, SIG/ED

INSTITUTS

Nom

Institut Pays

HI

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

RAPPORTSHR

Titre_R

RapportType

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Référence

AUTEURS

No

m

Au

teu

r Equ

ipe

Inst

itu

t

Sta

tut

HA

HS

t

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

Référence

Opérations de manipulation (4/6)

Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année

Analyse en ligne (OLAP) de documentsDécembre 2007

35IRIT, SIG/ED

AUTEURS

No

m

Au

teu

r Equ

ipe

Inst

itu

t

Sta

tut

HA

HS

t

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

Référence

Opérations de manipulation (4/6)

Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année

Analyse en ligne (OLAP) de documentsDécembre 2007

36IRIT, SIG/ED

Changement du niveau de détail:

Rotation

Annee 2005 2006Auteur

fouille de données, pattern XML, document

BD temporelle, règles document, Xpath

BD temporelle, modèle

ARTICLES | HSTOP_KEYWORDS

(Paragraphe), Document

DATES | HTps

Au1

AU

TE

UR

S| H

A

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

Référence

Opérations de manipulation (5/6)

Annee 2005 2006Auteur

ARTICLES | HSTOP_KEYWORDS

(Section), Document

DATES | HTps

Au1 BD temporelle, fouille de données XML, document

AU

TE

UR

S| H

A

Section

Paragraphe

Drill-D

own Ro

ll-Up

Analyse en ligne (OLAP) de documentsDécembre 2007

37IRIT, SIG/ED

Opérations de manipulation (6/6)

Exploitation des liens

 R.Institut Inst1

R.Auteur A1 A2 A3

Conférence        

ER 

XML, Documents

XML, Entrepôt de données

Fouille de données, Clustering

SSDBM 

XML, BD Temporelle

- -

DaWaK 

Fouille de données

Fouille de données

Fouille de données, Clustering

 R.Institut Inst1

R.Auteur A1 A2 A3

Conférence        

ER   3 2 1

SSDBM   2 - -

DaWaK   1 1 2

Context of the citations

Nombre de fois qu’un auteur est cité

Auteur cité 3 fois dans une conférence

Portée des travaux : Comment analyser le contexte des citations ?

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

Référence

Analyse en ligne (OLAP) de documentsDécembre 2007

38IRIT, SIG/ED

Plan

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

39IRIT, SIG/ED

Démarche d’intégration (1/5)

ENTREPÔTDE DONNEES

SOURCE ETEXTRACTION

MAGASIN DEDONNEES (BDM)

RESTITUTIONET ANALYSE

Pro

cess

us

ETL

Pro

cess

us

ET

L

Sources

DECIDEUR

Analyse en ligne (OLAP) de documentsDécembre 2007

40IRIT, SIG/ED

Démarche d’intégration (2/5)

Architecture: positionnementComment passer des documents à une galaxie?

ENTREPÔT

<These><Contenu>

<Chapitre Titre="Titre du chapitre 1"><Section Titre="Titre de la section 1.1">

<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>

</Section><Section Titre="Titre de la section 1.2">

…</Section>

</Chapitre><Chapitre Titre="Titre du chapitre 2">

…</Chapitre>

</Contenu></These>

Table1 Col1 Col2 Col3 Col4

Table1 Col1 Col2 Col3 Col4

Table1 Col1 Col2 Col3 Col4

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ ParTitre_Sec

Titre_Doc

HS

Document

Magasin

Analyse en ligne (OLAP) de documentsDécembre 2007

41IRIT, SIG/ED

Démarche d’intégration (3/5)

Conceptions de BDMDémarches ascendantes [Golfarelli-98]…

Démarches descendantes [Kimball-96]…

Démarches mixtes [Carneiro-02]…

Analyse en ligne (OLAP) de documentsDécembre 2007

42IRIT, SIG/ED

Démarche d’intégration (4/5)

Étapes

Sources auxilliaires

+

Schéma conceptuelcompatible avec les sources

SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION

DonnéesXML

Sources(éventuellement enrichies)

Chargementdes données

Besoind'Analyse

Schéma conceptuel en galaxie

Structure des sources: DTD

Enrichissement des sources

Vision arborescente

CONFRONTATION

Analyse desSources

Analysedes besoinsutilisateurs

Adaptation du schéma conceptuel

INC

OM

PAT

IBILIT

EIN

CO

MPA

TIB

ILITE

Analyse en ligne (OLAP) de documentsDécembre 2007

43IRIT, SIG/ED

Analyses concurrentes (1/3)

Détails des étapes

Sources auxilliaires

+

Schéma conceptuelcompatible avec les sources

SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION

DonnéesXML

Sources(éventuellement enrichies)

Chargementdes données

Besoind'Analyse

Schéma conceptuel en galaxie

Structure des sources: DTD

Enrichissement des sources

Vision arborescente

CONFRONTATION

Analyse desSources

Analysedes besoinsutilisateurs

Adaptation du schéma conceptuel

INC

OM

PAT

IBILIT

EIN

CO

MPA

TIB

ILITE

Analyse en ligne (OLAP) de documentsDécembre 2007

44IRIT, SIG/ED

Analyses concurrentes (2/3)

Spécification des besoins

Identification des attributs Spécification d’une matrice des besoins

Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions

Continent Am érique N.Pays France Angleterre USA

Type Produit

DELL PowerEdge 3 2 7

IBM System X 1 0 9

Alienware Aurora 3 7 0Sun Ultra 5 6 1

DATES = novem bre 2005

VENTES

SOM M E(Quantités)

M AGASINS

Europe

PR

OD

UIT

S

Serveur

Station

COLLECTE DESBESOINS

SPECIFIC ATIONDES BESOINS

EXPRESSION/FORMALI SATIONDES BESOINS

Décideur

Questionnaires

Besoins utilisateur

Analysedes besoins

Schéma multidimensionnel(Galaxie)

Requêtes

Analyse en ligne (OLAP) de documentsDécembre 2007

45IRIT, SIG/ED

Analyses concurrentes (3/3)

Analyse des sources Identifier

Contenu Structure du contenu Méta données

Meta données Contenu

Structure du contenuARTICLE

PUBLICATION

Annee

Mois

Editeur

Titre_Publication

Nom

Institut

Pays

AUTEUR + CONTENU_ARTICLE

Titre_A +SECTION

Titre_S +SSec_Section

Titre_ SSec +Paragraphe

Analyse en ligne (OLAP) de documentsDécembre 2007

46IRIT, SIG/ED

Confrontation (1/2)

Détails des étapes

Sources auxilliaires

+

Schéma conceptuelcompatible avec les sources

SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION

DonnéesXML

Sources(éventuellement enrichies)

Chargementdes données

Besoind'Analyse

Schéma conceptuel en galaxie

Structure des sources: DTD

Enrichissement des sources

Vision arborescente

CONFRONTATION

Analyse desSources

Analysedes besoinsutilisateurs

Adaptation du schéma conceptuel

INC

OM

PAT

IBILIT

EIN

CO

MPA

TIB

ILITE

Analyse en ligne (OLAP) de documentsDécembre 2007

47IRIT, SIG/ED

Confrontation (2/2)

Phase d’association

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ ParTitre_Sec

Titre_Doc

HS

Document

ARTICLE

PUBLICATION

Annee

Mois

Editeur

Titre_Publication

Nom

Institut

Pays

AUTEUR + CONTENU_ARTICLE

Titre_A +SECTION

Titre_S +SSec_Section

Titre_ SSec +Paragraphe

Audience

Tx_AcceptationTx_Acceptation

Libelle_MoisLibelle_MoisLibelle_Mois

Mois

Editeur

Titre_Publication ++

+

CONTENU_ARTICLE

Titre_SecTitre_Sec

++

Type_SecType_SecTitre_SecTitre_Sec

Incompatibilités

Analyse en ligne (OLAP) de documentsDécembre 2007

48IRIT, SIG/ED

Enrichissement et chargement

Détails des étapes

Sources auxilliaires

+

Schéma conceptuelcompatible avec les sources

SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION

DonnéesXML

Sources(éventuellement enrichies)

Chargementdes données

Besoind'Analyse

Schéma conceptuel en galaxie

Structure des sources: DTD

Enrichissement des sources

Vision arborescente

CONFRONTATION

Analyse desSources

Analysedes besoinsutilisateurs

Adaptation du schéma conceptuel

INC

OM

PAT

IBILIT

EIN

CO

MPA

TIB

ILITE

Analyse en ligne (OLAP) de documentsDécembre 2007

49IRIT, SIG/ED

Validation

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

50IRIT, SIG/ED

Architecture (1/3)

SGBDORACLE(XML&RELATIONNEL)

fic2.xmlfic1.xml

fic3.xml Java

Java

Java

SQL +XQuery

SQL +XQuery

Fichiers XMLconformes à

un DTD commune

SOURCES ENTREPÔT MAGASIN RESTITUTION

4 niveaux

Analyse en ligne (OLAP) de documentsDécembre 2007

51IRIT, SIG/ED

Architecture (2/3)

Java

Métabase Structures

Base de données Données

SQL +XQuery

Ma

ga

sin

En

tre

t

Magasin de données

Analyse en ligne (OLAP) de documentsDécembre 2007

52IRIT, SIG/ED

Architecture (3/3)

Résultats

Annee 2005 2006IdA

OLAP OLAPEntrepot RequetesEntrepôt XMLDocument Document

STRUCTURE.Type_Sec = "introduction"

Top_Keyword(ARTICLES.Texte)

TEMPS

AUT

EU

RS

Au1

Au2

MAGASIN RESTITUTION

Requêtesmultidimensionnelles

RésultatsTraitements

internesTraitements

externes

Agrégation dedonnées numériques

Restitution / analyse

Analyse en ligne (OLAP) de documentsDécembre 2007

53IRIT, SIG/ED

Outil et restitution d’analyses (1/2)

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Type_Sec

(1)

(2)

(3)

Spécification d’analyses

Analyse en ligne (OLAP) de documentsDécembre 2007

54IRIT, SIG/ED

CONFERENCESHConf

Conf

NomEditeur

Tx_Acceptation

SerieAudience

DATESHTps

Libelle_Mois

DateMoisAnnee

ARTICLES Paragraphe Section

Type_SecType_ParTitre_Sec

Titre_Doc

HS

Document

AUTEURS

Nom

Auteur

Equipe Institut

Statut

HA

HSt

Outil et restitution d’analyses (2/2)

Manipulation d’analyses

Analyse en ligne (OLAP) de documentsDécembre 2007

55IRIT, SIG/ED

Conclusion

IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives

Analyse en ligne (OLAP) de documentsDécembre 2007

56IRIT, SIG/ED

Bilan général (1/3)

Analyse en ligne de documents

Modèle en galaxie Généralisation Concept unique Spécificité des documents

Analyse en ligne (OLAP) de documentsDécembre 2007

57IRIT, SIG/ED

Bilan général (2/3)

Analyse en ligne de documents

Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses

Analyse en ligne (OLAP) de documentsDécembre 2007

58IRIT, SIG/ED

Bilan général (3/3)

Analyse en ligne de documents

Démarche Processus mixte Conception d’une galaxie Intégration de documents XML

Analyse en ligne (OLAP) de documentsDécembre 2007

59IRIT, SIG/ED

Perspectives

Données semi-structuréesGestion de versionsEvaluation de performancesVisualisation adaptée Fonctions d’agrégation : environnement

d’intégration

Analyse en ligne (OLAP) de documentsDécembre 2007

60IRIT, SIG/ED

-

MERCISoutenance de thèse en informatique

Décembre 2007, Ronan Tournier

SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données

IRIT, Institut de Recherche en Informatique de Toulouse

Université Paul Sabatier, Toulouse III.