Analyse en ligne (OLAP) de documents
-
Upload
blythe-blackburn -
Category
Documents
-
view
31 -
download
0
description
Transcript of Analyse en ligne (OLAP) de documents
Soutenance de thèse, Décembre 2007
Analyse en ligne (OLAP) de documents
Ronan TournierTravaux de thèse
Sous la direction de Gilles ZurfluhEncadré par : Franck Ravat et Olivier Teste
Analyse en ligne (OLAP) de documentsDécembre 2007
2IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
3IRIT, SIG/ED
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ETL
Sources
DECIDEUR
Vue unifiéeStructuration
multidimensionnelle
Contexte (1/6)
Les systèmes d’aide à la décision
Cadre de la thèse
XML
XML
Analyse en ligne (OLAP) de documentsDécembre 2007
4IRIT, SIG/ED
Contexte (2/6)
Analyse multidimensionnelle
De
llP
ow
erEd
ge
New-YorkNov.05
MAGASIN
DATES
VENTESMontants, Quantités
Londres
Toulouse
Paris
France
Angleterre
USA
Europe
Amerique N.
IBM
Sys
tem
X
Alie
nw
are
Au
rora
Su
nU
ltra
Déc.05
Jan.06
Fév.06
2005
2006
PR
OD
UIT
S
Sta
tion
Serve
ur
VillePaysContinent
Produit
Type
Mois Année
1 1 3 1
2200 3100 4350 1900
2 0 0 4
4400 0 0 7600
2 0 7 6
4400 0 10150 11400
7 9 0 1
15400 27900 0 190
1
1900
QuantitéMontant
Analyse en ligne (OLAP) de documentsDécembre 2007
5IRIT, SIG/ED
Contexte (3/6)
Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un
système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée
Mais Systèmes OLAP: données numériques Documents = données textuelles
Analyse en ligne (OLAP) de documentsDécembre 2007
6IRIT, SIG/ED
Contexte (4/6)
XML: permet de structurer des documentsExtended Markup Language
Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure
Analyse en ligne (OLAP) de documentsDécembre 2007
7IRIT, SIG/ED
Contexte (5/6)
XML: exemple de document
<These> <Contenu>
<Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>
</Section> <Section Titre="Titre de la section 1.2">
… </Section></Chapitre><Chapitre Titre="Titre du chapitre 2"> …</Chapitre>
</Contenu></These>
These
Contenu
ChapitreTitre
SectionTitre
Paragraphe
Type
Titre
Analyse en ligne (OLAP) de documentsDécembre 2007
8IRIT, SIG/ED
Contexte (6/6)
Analyse multidimensionnelleDe l’analyse numérique…
Vers l’analyse non numérique
Sujet des publications
Nombre de publications par auteur Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK 2 1 -
ICEIS 1 3 -
CAiSE - 1 2
Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK
XML, Temporel
Entrepôts de données
-
ICEIS
XML, BD temporelles
XML, Fouille, Contraintes
-
CAiSE
-Entrepôts de
donnéesModèle conceptuel, Fouille de données
Sujets des 2publications
Analyse en ligne (OLAP) de documentsDécembre 2007
9IRIT, SIG/ED
Problématique
MaisComment analyser données textuelles ?Comment représenter les structures ?Comment alimenter ces structures ?
But : Analyser 100% des données d’un SIDonnées transactionnellesDocuments XML
Analyse en ligne (OLAP) de documentsDécembre 2007
10IRIT, SIG/ED
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ETL
Sources
DECIDEUR
Vue unifiéeStructuration
multidimensionnelle
État de l’art (1/3)
Les systèmes d’aide à la décision
XML XML XML
Analyse en ligne (OLAP) de documentsDécembre 2007
11IRIT, SIG/ED
État de l’art (2/3)
Entrepôts et XML Entrepôts de données XML [Oracle]…
Pas d’intégration de documents Entrepôts de documents XML [Xylème]…
Pas destinés à l’analyse
ENTREPÔTDE DONNEES
XML
Analyse en ligne (OLAP) de documentsDécembre 2007
12IRIT, SIG/ED
État de l’art (2/3)
Magasins et XML Intégration de données XML [Golfarelli-01]…
Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]…
Grande redondance dans les données
MAGASIN DEDONNEES (BDM)
XML
Analyse en ligne (OLAP) de documentsDécembre 2007
13IRIT, SIG/ED
État de l’art (3/3)
Analyse et XML Analyse de documents [McCabe-00]…
Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles
RESTITUTIONET ANALYSE
XML
Analyse en ligne (OLAP) de documentsDécembre 2007
14IRIT, SIG/ED
État de l’art (3/3)
Actuellement OLAP ne gère pas Données textuelles Structure Contenu
Objectif : Analyse OLAP de documents
Analyse en ligne (OLAP) de documentsDécembre 2007
15IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
16IRIT, SIG/ED
Modèle conceptuel (1/7)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
Analyse en ligne (OLAP) de documentsDécembre 2007
17IRIT, SIG/ED
Modèle conceptuel (2/7)
Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données
Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse
Analyse en ligne (OLAP) de documentsDécembre 2007
18IRIT, SIG/ED
Modèle conceptuel (3/7)
Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse
Analyse en ligne (OLAP) de documentsDécembre 2007
19IRIT, SIG/ED
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Modèle conceptuel (4/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble
Analyse en ligne (OLAP) de documentsDécembre 2007
20IRIT, SIG/ED
Attribut Faible = complément sémantique d’un paramètre
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Modèle conceptuel (5/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies
Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles
Paramètre = niveau de granularité d’analyse
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Analyse en ligne (OLAP) de documentsDécembre 2007
21IRIT, SIG/ED
Modèle conceptuel (6/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances
Instance Auteur Nom Statut Equipe Instituti1 Au1 Ronan Tournier ATER SIG/ED IRIT
Exemple d’instance d’auteur
Analyse en ligne (OLAP) de documentsDécembre 2007
22IRIT, SIG/ED
Modèle conceptuel (7/7)
Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens
intra ou inter documents
DATESCONFERENCESARTICLES AUTEURSARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
RéférenceDATES
CONFERENCES
ARTICLES
AUTEURS
Analyse en ligne (OLAP) de documentsDécembre 2007
23IRIT, SIG/ED
Exemple
Analyse d’articles scientifiques et de projets
INSTITUTS
Nom
Institut Pays
HI
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
RAPPORTSHR
Titre_R
RapportType
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Référence
Analyse en ligne (OLAP) de documentsDécembre 2007
24IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
25IRIT, SIG/ED
Fonction d’agrégation (1/6)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
AGREGATION
Analyse en ligne (OLAP) de documentsDécembre 2007
26IRIT, SIG/ED
Fonction d’agrégation (2/6)
Principe d’agrégationExemple de somme
1 1 3 1
2200 3100 4350 1900
2 0 0 4
4400 0 0 7600
2 0 7 6
4400 0 10150 11400
7 9 0 1
15400 27900 0 1900
1 1 3 1
2 0 0 4
2 0 7 6
7 9 0 1
Analyse en ligne (OLAP) de documentsDécembre 2007
27IRIT, SIG/ED
Fonction d’agrégation (3/6)
ProblématiqueAgréger des données textuelles
Reconstituer une règle d’agrégationRègle d’agrégation: ontologie
Ontologie légère [Lassila-01]
Ontologie de domaine
Analyse en ligne (OLAP) de documentsDécembre 2007
28IRIT, SIG/ED
Fonction d’agrégation (4/6)
Exemple d’ontologie (SI)Information Systems
Document warehouse
Conceptual model
Data warehouse
Database
OLAP
ProcessingStorage
Design
Logical
SnowflakeDFM YAM² Star ROLAP MOLAP OOLAP
Architecture
Methodology
OLTP
...
...
...
.........
... ...
... ... ...
... = noeuds non représentés
Feuilles
Racine
Arc
Noeud
Analyse en ligne (OLAP) de documentsDécembre 2007
29IRIT, SIG/ED
Fonction d’agrégation (5/6)
Exemple d’agrégation
LCA (Design, Processing) = OLAP
D=3
D=1Distance (Design, Processing) = 3
Entrée { (Design, d=0), (Processing, d=0) }
Sortie (OLAP, d=3)
Analyse en ligne (OLAP) de documentsDécembre 2007
30IRIT, SIG/ED
Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds
AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine
Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3)
Fonction d’agrégation (6/6)
Analyse en ligne (OLAP) de documentsDécembre 2007
31IRIT, SIG/ED
Opérations de manipulation (1/6)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
MANIPULATION
Analyse en ligne (OLAP) de documentsDécembre 2007
32IRIT, SIG/ED
Opérations de manipulation (2/6)
But: « Manipuler une galaxie »
Opérations OLAP
Liens pour naviguer au sein des données
Analyse en ligne (OLAP) de documentsDécembre 2007
33IRIT, SIG/ED
Opérations de manipulation (3/6)
Opérations OLAP [Ravat-07e] revisitéesFocalisationRestrictionForageRotation
Analyse en ligne (OLAP) de documentsDécembre 2007
34IRIT, SIG/ED
INSTITUTS
Nom
Institut Pays
HI
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
RAPPORTSHR
Titre_R
RapportType
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Référence
AUTEURS
No
m
Au
teu
r Equ
ipe
Inst
itu
t
Sta
tut
HA
HS
t
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année
Analyse en ligne (OLAP) de documentsDécembre 2007
35IRIT, SIG/ED
AUTEURS
No
m
Au
teu
r Equ
ipe
Inst
itu
t
Sta
tut
HA
HS
t
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année
Analyse en ligne (OLAP) de documentsDécembre 2007
36IRIT, SIG/ED
Changement du niveau de détail:
Rotation
Annee 2005 2006Auteur
fouille de données, pattern XML, document
BD temporelle, règles document, Xpath
BD temporelle, modèle
ARTICLES | HSTOP_KEYWORDS
(Paragraphe), Document
DATES | HTps
Au1
AU
TE
UR
S| H
A
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (5/6)
Annee 2005 2006Auteur
ARTICLES | HSTOP_KEYWORDS
(Section), Document
DATES | HTps
Au1 BD temporelle, fouille de données XML, document
AU
TE
UR
S| H
A
Section
Paragraphe
Drill-D
own Ro
ll-Up
Analyse en ligne (OLAP) de documentsDécembre 2007
37IRIT, SIG/ED
Opérations de manipulation (6/6)
Exploitation des liens
R.Institut Inst1
R.Auteur A1 A2 A3
Conférence
ER
XML, Documents
XML, Entrepôt de données
Fouille de données, Clustering
SSDBM
XML, BD Temporelle
- -
DaWaK
Fouille de données
Fouille de données
Fouille de données, Clustering
R.Institut Inst1
R.Auteur A1 A2 A3
Conférence
ER 3 2 1
SSDBM 2 - -
DaWaK 1 1 2
Context of the citations
Nombre de fois qu’un auteur est cité
Auteur cité 3 fois dans une conférence
Portée des travaux : Comment analyser le contexte des citations ?
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Analyse en ligne (OLAP) de documentsDécembre 2007
38IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
39IRIT, SIG/ED
Démarche d’intégration (1/5)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
Analyse en ligne (OLAP) de documentsDécembre 2007
40IRIT, SIG/ED
Démarche d’intégration (2/5)
Architecture: positionnementComment passer des documents à une galaxie?
ENTREPÔT
<These><Contenu>
<Chapitre Titre="Titre du chapitre 1"><Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>
</Section><Section Titre="Titre de la section 1.2">
…</Section>
</Chapitre><Chapitre Titre="Titre du chapitre 2">
…</Chapitre>
</Contenu></These>
Table1 Col1 Col2 Col3 Col4
Table1 Col1 Col2 Col3 Col4
Table1 Col1 Col2 Col3 Col4
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ ParTitre_Sec
Titre_Doc
HS
Document
Magasin
Analyse en ligne (OLAP) de documentsDécembre 2007
41IRIT, SIG/ED
Démarche d’intégration (3/5)
Conceptions de BDMDémarches ascendantes [Golfarelli-98]…
Démarches descendantes [Kimball-96]…
Démarches mixtes [Carneiro-02]…
Analyse en ligne (OLAP) de documentsDécembre 2007
42IRIT, SIG/ED
Démarche d’intégration (4/5)
Étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
Analyse en ligne (OLAP) de documentsDécembre 2007
43IRIT, SIG/ED
Analyses concurrentes (1/3)
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
Analyse en ligne (OLAP) de documentsDécembre 2007
44IRIT, SIG/ED
Analyses concurrentes (2/3)
Spécification des besoins
Identification des attributs Spécification d’une matrice des besoins
Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions
Continent Am érique N.Pays France Angleterre USA
Type Produit
DELL PowerEdge 3 2 7
IBM System X 1 0 9
Alienware Aurora 3 7 0Sun Ultra 5 6 1
DATES = novem bre 2005
VENTES
SOM M E(Quantités)
M AGASINS
Europe
PR
OD
UIT
S
Serveur
Station
COLLECTE DESBESOINS
SPECIFIC ATIONDES BESOINS
EXPRESSION/FORMALI SATIONDES BESOINS
Décideur
Questionnaires
Besoins utilisateur
Analysedes besoins
Schéma multidimensionnel(Galaxie)
Requêtes
Analyse en ligne (OLAP) de documentsDécembre 2007
45IRIT, SIG/ED
Analyses concurrentes (3/3)
Analyse des sources Identifier
Contenu Structure du contenu Méta données
Meta données Contenu
Structure du contenuARTICLE
PUBLICATION
Annee
Mois
Editeur
Titre_Publication
Nom
Institut
Pays
AUTEUR + CONTENU_ARTICLE
Titre_A +SECTION
Titre_S +SSec_Section
Titre_ SSec +Paragraphe
Analyse en ligne (OLAP) de documentsDécembre 2007
46IRIT, SIG/ED
Confrontation (1/2)
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
Analyse en ligne (OLAP) de documentsDécembre 2007
47IRIT, SIG/ED
Confrontation (2/2)
Phase d’association
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ ParTitre_Sec
Titre_Doc
HS
Document
ARTICLE
PUBLICATION
Annee
Mois
Editeur
Titre_Publication
Nom
Institut
Pays
AUTEUR + CONTENU_ARTICLE
Titre_A +SECTION
Titre_S +SSec_Section
Titre_ SSec +Paragraphe
Audience
Tx_AcceptationTx_Acceptation
Libelle_MoisLibelle_MoisLibelle_Mois
Mois
Editeur
Titre_Publication ++
+
CONTENU_ARTICLE
Titre_SecTitre_Sec
++
Type_SecType_SecTitre_SecTitre_Sec
Incompatibilités
Analyse en ligne (OLAP) de documentsDécembre 2007
48IRIT, SIG/ED
Enrichissement et chargement
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
Analyse en ligne (OLAP) de documentsDécembre 2007
49IRIT, SIG/ED
Validation
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
50IRIT, SIG/ED
Architecture (1/3)
SGBDORACLE(XML&RELATIONNEL)
fic2.xmlfic1.xml
fic3.xml Java
Java
Java
SQL +XQuery
SQL +XQuery
Fichiers XMLconformes à
un DTD commune
SOURCES ENTREPÔT MAGASIN RESTITUTION
4 niveaux
Analyse en ligne (OLAP) de documentsDécembre 2007
51IRIT, SIG/ED
Architecture (2/3)
Java
Métabase Structures
Base de données Données
SQL +XQuery
Ma
ga
sin
En
tre
pô
t
Magasin de données
Analyse en ligne (OLAP) de documentsDécembre 2007
52IRIT, SIG/ED
Architecture (3/3)
Résultats
Annee 2005 2006IdA
OLAP OLAPEntrepot RequetesEntrepôt XMLDocument Document
STRUCTURE.Type_Sec = "introduction"
Top_Keyword(ARTICLES.Texte)
TEMPS
AUT
EU
RS
Au1
Au2
MAGASIN RESTITUTION
Requêtesmultidimensionnelles
RésultatsTraitements
internesTraitements
externes
Agrégation dedonnées numériques
Restitution / analyse
Analyse en ligne (OLAP) de documentsDécembre 2007
53IRIT, SIG/ED
Outil et restitution d’analyses (1/2)
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Type_Sec
(1)
(2)
(3)
Spécification d’analyses
Analyse en ligne (OLAP) de documentsDécembre 2007
54IRIT, SIG/ED
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Outil et restitution d’analyses (2/2)
Manipulation d’analyses
Analyse en ligne (OLAP) de documentsDécembre 2007
55IRIT, SIG/ED
Conclusion
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
Analyse en ligne (OLAP) de documentsDécembre 2007
56IRIT, SIG/ED
Bilan général (1/3)
Analyse en ligne de documents
Modèle en galaxie Généralisation Concept unique Spécificité des documents
Analyse en ligne (OLAP) de documentsDécembre 2007
57IRIT, SIG/ED
Bilan général (2/3)
Analyse en ligne de documents
Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses
Analyse en ligne (OLAP) de documentsDécembre 2007
58IRIT, SIG/ED
Bilan général (3/3)
Analyse en ligne de documents
Démarche Processus mixte Conception d’une galaxie Intégration de documents XML
Analyse en ligne (OLAP) de documentsDécembre 2007
59IRIT, SIG/ED
Perspectives
Données semi-structuréesGestion de versionsEvaluation de performancesVisualisation adaptée Fonctions d’agrégation : environnement
d’intégration
Analyse en ligne (OLAP) de documentsDécembre 2007
60IRIT, SIG/ED
-
MERCISoutenance de thèse en informatique
Décembre 2007, Ronan Tournier
SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données
IRIT, Institut de Recherche en Informatique de Toulouse
Université Paul Sabatier, Toulouse III.