WP6 - Knowledge services for intensive data analysis and intelligent query answering
-
Upload
preston-lindsey -
Category
Documents
-
view
47 -
download
0
description
Transcript of WP6 - Knowledge services for intensive data analysis and intelligent query answering
27-28.5.2003 Workshop di Rimodulazione 1
WP6 - Knowledge services for intensive data analysis and intelligent query answering
Responsabile: Franco Turini (UniPI)Membri TB: Dino Pedreschi (UniPI)
Domenico Saccà (ICAR-CNR)
27-28.5.2003 Workshop di Rimodulazione 2
WP6 - Obiettivi Costruzione di servizi di middleware per
applicazioni e processi knowledge intensive: estrazione e ricerca di informazione e conoscenza
da fonti strutturate (basi di dati, data
warehouses) semi-strutturate (pagine web,
documenti XML) utilizzo dell’informazione e della conoscenza estratta
per servizi ad alte prestazioni di search, di retrieval e di query answering (efficienza e qualità di servizio)
27-28.5.2003 Workshop di Rimodulazione 3
WP6 - Approccio Basic services: per
data management e performance
Knowledge services: per applicazioni e computazioni di knowledge discovery distribuite
Retrieval services: per il recupero di informazioni sul Web
basic services
knowledgeservices
retrievalservices
27-28.5.2003 Workshop di Rimodulazione 4
WP6 – Basic services resource discovery and description accesso ai dati compressione e ricerca sui dati primitive di data mining, di data preprocessing grid mining (attività fortemente esplorativa)
Partecipano: ICAR-CNR CS (Talia, Saccà) ISTI-CNR PI (Giannotti, Perego) UniPI (Ferragina, Ghelli, Pedreschi, Ruggieri)
27-28.5.2003 Workshop di Rimodulazione 5
WP6 – Low-level Basic Services High-performance web switching
Partecipano: UniPI (Attardi) IEIIT-CNR TO (De Martin) PoliTO (Meo)
27-28.5.2003 Workshop di Rimodulazione 6
WP6 – Knowledge services ambienti di supporto al processo di
knowledge discovery linguaggi di interrogazione per data
mining Partecipano
ICAR-CNR CS (Talia, Saccà) ISTI-CNR PI (Giannotti) UniPI (Pedreschi, Ruggieri, Turini)
27-28.5.2003 Workshop di Rimodulazione 7
WP6 – Retrieval services focused crawling su grid
Partecipano: UniPI (Starita) UniPD (Sperduti) UniSI (Gori, Maggini) UniFI (Frasconi, Soda)
27-28.5.2003 Workshop di Rimodulazione 8
Basic Services: stato e prospettive
Grid DB per resource discovery and description
Strumenti per XML indexing and compression
Architettura di integrazione di strumenti di Data Mining su GRID
Open Web Switching
27-28.5.2003 Workshop di Rimodulazione 9
GRID DB per resource discovery and description
Principal Investigator:Giorgio Ghelli
27-28.5.2003 Workshop di Rimodulazione 10
Background Mancanza di servizi dati DB-like nei
toolkit standard Progetti esistenti
Datagrid: non DB oriented Spitfire: accesso distribuito a basi di dati
relazionali Polar*: riformulazione in ambito GRID del
DBMS parallelo ad oggetti Polar GGF DAIS-WG: servizi per l’accesso a DB
esistenti
27-28.5.2003 Workshop di Rimodulazione 11
Obiettivi del nostro progetto L’attenzione è spesso focalizzata sulle
problematiche tradizionali di decomposizione dei piani di accesso e gestione distribuita delle transazioni
Noi vogliamo focalizzare l’attenzione sulle problematiche peculiari della griglia: dinamicità della struttura dell’Organizzazione
Virtuale integrazione di domini amministrativi diversi (se possibile) high performance
27-28.5.2003 Workshop di Rimodulazione 12
Il nostro obiettivo Progettare un Semistructured GRID-
DB, ovvero un DB GRID-distribuito caratterizzato da: struttura distribuita e dinamica, ovvero la
capacità di accettare l’apparizione e sparizione di componenti del sistema
modello dei dati semistrutturato utilizzo di linguaggi standard (XQuery) e
protocolli standard (LDAP like?) per l’accesso
27-28.5.2003 Workshop di Rimodulazione 13
Applicazioni tipiche Complementare l’approccio
tradizionale; ad esempio: il GRID-DB per gestire i metadati, e i
database federati per gestire i dati il GRID-DB per affiancare la gerarchia
GRIS-GIIS quando il modello dei dati del GRIS (LDAP data model) non è sufficiente
27-28.5.2003 Workshop di Rimodulazione 14
Integrazione nell’ambito del progetto Metteremo a disposizione gli strumenti da
noi sviluppati nell’ambito del WP6 integrandoci in particolare con le attivita di: adattamento all’architettura grid di un ambiente
di knowledge discovery basato su XML livello core dei basic services for knowledge
discovery on grids Disponibili ad un integrazione con altri WP
27-28.5.2003 Workshop di Rimodulazione 15
Gruppo di lavoro Sartiani (borsa Giugno 2003 – Maggio
2003) Ghelli, Manghi, Albano, Conforti
27-28.5.2003 Workshop di Rimodulazione 16
Deliverables 12 mesi: un documento di
progettazione dell’architettura, modello dei dati, linguaggio, e protocollo del GRID-DB
18 mesi: documento di progettazione del prototipo
30 mesi: prototipo 36 mesi: rapporto sulla
sperimentazione del prototipo
27-28.5.2003 Workshop di Rimodulazione 17
Strumenti per XML indexing and compression
Principal Investigator: Paolo Ferragina
27-28.5.2003 Workshop di Rimodulazione 18
Attività svolte: XML indexing and compression
IR oriented: indice testuale non specializzato all’XML Le ricerche su testo+struttura possono essere molto lente
Flat: nessun preprocessing del file e ricerca per scansione (SAX o DOM)
– Molto lento e, nel caso del DOM, si usa molta memoria
Database oriented: uso di un DBMS a oggetti o relazionale– Abbiamo bisogno di indici extra, l’occupazione in spazio aumenta– Query strutturali necessitano di numerose join, e sono quindi lente
XML nativo: tecniche ad hoc di storage e indicizzazione per XML
XCDE Library: approccio nativo, e pressocchè unico nel suo genere• Libreria C con licenza LGPL, altamente personalizzabile• Tecniche indicizzazione e compressione allo stato dell’arte
27-28.5.2003 Workshop di Rimodulazione 19
XCDE Library: deliverable e ricerche future
• Documenti e indici in forma compressa (tutto entro la dimensione originale del file)• Supporto a query testuali e strutturali complesse (errori, regexp, proximity, nesting, ...)• Relizzazione per single-machine e studio di fattibilità per l’estensione al Grid
DiskXCDE Library
XML Querysolver
Data engineAPI
Context engineText engine Tag engine
Cons
ole
Query engineAPI
Contextextractor
Text query solver
Tag-Attributequery solver
Piani futuri:• Realizzazione di primitive di query più potenti, vicino a XQuery e orientate ai testi• Uso come componente base di applicazioni del WP6• Nuove tecniche di compressione e indicizzazione su file XML
1° a
nno
27-28.5.2003 Workshop di Rimodulazione 20
Architettura di integrazione di strumenti di Data Mining su GRID
Principal Investigators:Mimmo Talia, Mimmo Sacca`
27-28.5.2003 Workshop di Rimodulazione 21
Obiettivi
1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto
Realizzazione di una architettura per supportare applicazioni di KDD parallele e distribuite su Griglie computazionali (Knowledge Grid). L’architettura permette di integrare strumenti e algoritmi di data mining
con gli ambienti di Grid computing. Definizione e realizzazione di un sistema di distribuzione e
aggregazione di fonti informative Il sistema permette di rappresentare una fonte informativa (ad esempio
stream data) come una rete di viste con diversi livelli di aggregazione in modo che ogni nodo abbia nella sua vista i dettagli dei dati di sua pertinenza e un sintesi di quelli presenti presso altri nodi
27-28.5.2003 Workshop di Rimodulazione 22
Risultati
2) i primi risultati ottenuti in questi primi mesi
Schema funzionale dell’architettura del KDD parallelo e distribuito e definizione delle componenti di base e delle loro interfacce.
Definizione di algoritmi e modelli di aggregazione di datacube e stream data e loro distribuzione su griglia
3) i deliverable del primo anno
Documenti di specifica dell’architettura del KDD parallelo e distribuito e sviluppo di un primo prototipo realizzato su Globus Toolkit.
Documenti di specifica per la aggregazione e distribuzione di datacube e prototipo di un sistema distribuito di gestione di stream data
27-28.5.2003 Workshop di Rimodulazione 23
Web Switching
Gruppo di Lavoro:Centro Serra, Università di PisaGiuseppe AttardiVivek SinhaStefano Suin
27-28.5.2003 Workshop di Rimodulazione 24
Setting
Large number of transactions (>1000/sec) Large amount of data (billions of
documents)
Internet
Clients
Web Switch
Server Farm
27-28.5.2003 Workshop di Rimodulazione 25
Switch Technology Local Director with Direct Routing
Web Switch
Internet
Internal Network
Requests
Single IP address
Replies go directly to clients
27-28.5.2003 Workshop di Rimodulazione 26
Details IP packet forwarding:
Modified Linux kernel Switch chooses server and changes MAC
address of packet Switch maintains table of connections, to
ensure persistency Each server connects to outside with same
IP: Modified Linux kernel to avoid responding to ARP
27-28.5.2003 Workshop di Rimodulazione 27
Status Experimenting with Linux Virtual
Server Benchmarks and testing with RLX
blade server
27-28.5.2003 Workshop di Rimodulazione 28
Test beds Distributed Crawler
Goal: collect 300 million Web documents in a month
Distributed Search Engine Collection partitioned into several
indexes Cluster for each partition Web Switch redirects to various clusters
27-28.5.2003 Workshop di Rimodulazione 29
Open Web Switching
Gruppo di lavoro:Politecnico di Torino/IEIIT-CNREspedito Antonio MancusoJuan Carlos De MartinAngelo Raffaele Meo
27-28.5.2003 Workshop di Rimodulazione 30
Attività Obiettivo: sostituire i layer-7
switch -costosi e proprietari - con web switch ai margini della rete - economici, flessibili ed aperti
Switching: MPLS-based Piattaforma: Linux Risultati: Progettato architettura
complessiva (v. rapporto tecnico)
27-28.5.2003 Workshop di Rimodulazione 31
Attivita` Obiettivo: sostituire i layer-7 switch –costosi e
proprietari- con web switch ai margini della rete – economici, flessibili e aperti.
Switching: MPLS-based
Piattaforma: Linux
Deliverable: progetto dell’architettura complessiva
27-28.5.2003 Workshop di Rimodulazione 32
Knowledge Services: stato e prospettive
Knowledge Grid
Costruzione di ambienti di KDD su Grid
27-28.5.2003 Workshop di Rimodulazione 33
Knowledge Grid
Principal Investigators:Mimmo TaliaMimmo Sacca`
27-28.5.2003 Workshop di Rimodulazione 34
Attivita`
1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto
Realizzazione di strumenti di alto livello per lo sviluppo di processi di KDD su Griglie computazionali costruiti a partire dell’architettura e dei servizi di base della Knowledge Grid
Progettazione e sviluppo di metodi, strumenti e meccanismi basati su XML per la descrizione di risorse e processi di KDD, la loro ricerca e integrazione sulla Griglia
Sviluppo di una ontologia per il data mining da usare nella Knowledge Grid
27-28.5.2003 Workshop di Rimodulazione 35
Attivita` (2) Definizione e realizzazione prototipale di un ambiente per la
composizione di risorse e servizi disponibili su griglia, modellati tramite un workflow, e per l’analisi, la predizione e il monitoraggio degli scenari di utilizzo attraverso l’integrazione di tecniche di Knowledge Discovery e di Reasoning
Definizione e sviluppo di tecniche di data mining per l’analisi di workflow di composizione di servizi su griglia al fine di individuare pattern frequenti, situazioni di probabile successo (o insuccesso) e per ristrutturare la composizione al fine di aumentare la qualità complessiva
27-28.5.2003 Workshop di Rimodulazione 36
Risultati
2) i primi risultati ottenuti in questi primi mesi Definizione di un servizio di informazione per la
Knowledge Grid. Progettazione di uno strumento per lo sviluppo di
applicazioni KDD sulla Griglia. Definizione di un modello deduttivo-induttivo per la
definizione di workflow di servizi e la predizione di scenari di comportamento
Definizione di tecniche di mining di regole associative su istanze di workflow rappresentate come grafi
27-28.5.2003 Workshop di Rimodulazione 37
Deliverables3) i deliverable del primo anno
Documenti sulle tematiche elencate.
Prototipi di strumenti e servizi di alto livello per KDD sulla Griglia.
27-28.5.2003 Workshop di Rimodulazione 38
Ambienti di KDD su Grid
Principal Investigators:Fosca Giannotti,Salvatore Ruggieri,Dino Pedreschi, Franco Turini
27-28.5.2003 Workshop di Rimodulazione 39
Strategia marcatura stretta dei risultati del
WP8 ovvero:
1. sequenziale2. parallelo3. GRID-aware
27-28.5.2003 Workshop di Rimodulazione 40
Sistema KDDML
Principio base: utilizzo di XML come linguaggio per la interoperabilità
un documento XML si dice valido se rispetta le specifiche definite nella corrispondente DTD (Document Type Definition)
forte espressività del QL sistema aperto
In KDDML KDDML (KDD Markup Language): implementazione in Java
ogni modello (RDA, Alberi, Clusters) viene rappresentato come un documento XML (KDD_OBJECT)
anche i problemi di estrazione di conoscenza sono documenti XML (KDD_QUERY)
27-28.5.2003 Workshop di Rimodulazione 41
Architettura originaria di KDDML
Componente esterna
Repository
Componenteimplementata
Classe
XML Query ExecutorQuery Executor
WEKA
Sorgente Dati
Graphic User
InterfaceBrowser Wrappers
Operatori
LotusXSL
XML-DOMrappresentation
RunTimeException
Paths
Legenda:
27-28.5.2003 Workshop di Rimodulazione 42
Esecuzione seq. di una KDD query
Ad ogni documento XML che rappesenta il modello o la query puo’ essere associato un albero DOM (Document Object Model).
Utile dare al programmatore una visione concettuale dei dati contenuti nel documento.
Disponibili interfacce per manipolare e leggere i nodi dell’albero (getChilds(), getAttribute() …).
Il QueryExecutor di KDDML effettua una visita in profondità dell’albero DOM che rappresenta la query da eseguire. Per ogni operatore individuato si richiama la classe corrispondente per l’esecuzione.
27-28.5.2003 Workshop di Rimodulazione 43
Come parallelizzare l’esecuzione?
Introduzione in KDDML di un operatore “esplicito” di parallelismo: ParallelOperatori scelti:
And_Or_CommitteeRule_ExceptionRule_SupportPreserved_RulesClassifyTake_By_If
Motivazioni: consentono l’annidamento di sotto operatori vi si puo’ applicare il “Task Parallel” utilizzo della strategia “Replicazione degli
alg. DM seq.”
27-28.5.2003 Workshop di Rimodulazione 44
Architettura del sistema parallelo
pipe
JVM2
ASSIST
JVM1
GUI Query_Executor Parallel
FileAstJava
KDD Query
File risultati
AstFile
Operatori
Parquery_ExecutorWrappers
JavaVm.hpp
File System
librerie
File.ast
Flusso dei dati
classi
Package
Legenda:
27-28.5.2003 Workshop di Rimodulazione 45
Deliverables versione parallela di KDDML
progetto di integrazione di algoritmi di DM paralleli
Studio di fattibilita` sul Grid Mining
27-28.5.2003 Workshop di Rimodulazione 46
Retrieval services focused crawling su grid
Principal Investigators:Antonina Starita, Alessandro Sperduti,Marco Gori,Paolo Frasconi
General purpose search engines must trade recency for coverage
Coverage: fraction of Web documents that are crawled and indexed
Recency: index is -current at time if no changes occurred in
Motivations
Crawl the Web only for a specific “topic” Given the available bandwidth both coverage and recency
will be high for that topic AI algorithms are necessary to:
decide whether or not a page is off-topic predict whether following out-links from a given page
will increase coverage filter crawled documents
Different machine learning tools may be used
Focused crawling
Crawling: Use grid infrastructure to distribute crawling
activity on several nodes Learning and categorization:
Very large collections of (physically distributed) documents
Large number of classes Exploit link analysis
Objectives
1st year Prototype of a learning and categorization
service deployed on the grid 2nd year
Deployment of a service capable of dynamic management of classification agents
First prototype of parallel distributed crawlers 3rd year
Implementation and testing of the adaptive focused crawler
Deliverables