Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen...

31
Seminar SS2000 - Data Fusion Folie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart SS 2000

Transcript of Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen...

Page 1: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 1

SeminarEnterprise Application Integration

Data Fusion

Steffen Koch

Betreuer: Holger Schwarz

Universität StuttgartSS 2000

Page 2: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 2

Übersicht• Motivation• Data Fusion/Informationsfusion

– Datenintegration/ -mangement– KDD und Data Mining– Datenfusion

• Anwendungsfelder der Informationsfusion• Anforderungen• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources

– Das „TSIMMIS Mediation System“– Zusammenfassung von TSIMMIS– Einschätzung des TSIMMIS Systems– Andere Ansätze zur Informationsintegration

• Informationsfusion - ein Ausblick• Literaturhinweise

Page 3: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 3

Motivation

• Inzwischen effiziente Speicherung großer Datenmengen möglich• Zugriff auf weltweit verteilte Informationen durch moderne

Kommunikationsmedien (Internet)Neue Nutzungspotentiale für unternehmensinterne Informationssysteme durch Integration externer Informationen

Probleme:– Auffinden relevanter Daten– heterogene Datenbestände– Redundanzen, Inkonsistenzen– Aktualität, Vertrauenswürdigkeit– kein effizienter Zugriff– unzureichend strukturierte Daten– versteckte Information/implizites Wissens in Daten

Page 4: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 4

Der Begriff „Data Fusion“ bzw. „Informationsfusion“

InformationsfusionData Fusion

DatenfusionData Mining/

Knowledge Discovery in Databases(KDD)

Datenintegration und -management

=

Page 5: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 5

Datenintegration und - management

• Ziel: Überwindung von Heterogenitäten auf verschiedenen Ebenen

– unterschiedliche Datenmodelle– verschiedene Datentypen– andere Einheiten, die den Daten zugrunde liegen– semistrukturierte Daten

• Allgemeine Vorgehensweise:– Transformation in gemeinsames Datenmodell– Erkennung von Übereinstimmungen in den Schemata

Page 6: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 6

KDD und Data Mining

• Ziel von KDD:Identifikation neuer, potentiell nützlicher und verständlicher Muster in Datenbeständen.

• KDD läuft iterativ und interaktiv in mehreren Schritten ab:1. Festlegung Problembereiche/Zielen

2. Datensammlung/ -bereinigung

3. Auswahl/Parametrisierung der Analysefunktionen

4. Data Mining

5. Bewertung/Interpretation der Ergebnisse

6. Nutzung des gefundenen Wissens

Page 7: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 7

Datenfusion

• Grundsätzlich: Die Kombination von Daten aus verschiedenen (heterogenen) Quellen

• Anwendungsgebiete der Datenfusion:– Multi-Sensor Fusion– Image Fusion– Multiple Source Interrogation

Page 8: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 8

Anwendungsfelder der Informationsfusion

Überall dort, wo Daten aus unterschiedlichen Quellen kombiniert und daraus neue Informationen abgeleitet werden sollen

Anwendungsszenario:Betrieb einer großen

Telekommunikationsanlage

Kundendaten Verbindungsdaten

Produktdaten

Daten zumKommunikationsnetz

Integration und Verdichtung dieser Datenbestände für:

• Dispositive Bereiche• Marketing• Netzwerkmanagement• Systemmanagement

Page 9: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 9

Übersicht• Motivation• Data Fusion/Informationsfusion

– Datenintegration/ -mangement– KDD und Data Mining– Datenfusion

• Anwendungsfelder der Informationsfusion• Anforderungen• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources

– Das „TSIMMIS Mediation System“– Zusammenfassung von TSIMMIS– Einschätzung des TSIMMIS Systems– Andere Ansätze zur Informationsintegration

• Informationsfusion - ein Ausblick• Literaturhinweise

Page 10: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 10

Anforderungen der Informationsfusion (1)

• Datenzugriff:– Transparenter Zugriff auf Daten– Verarbeitung von Daten mit vorgegebener Struktur– Verarbeitung und Optimierung von Anfragen

• Datenintegration– Integrierte Sicht auf Daten durch homogenes Datenmodell– Behebung von Konflikte auf Schema- und Instanzebene– Repräsentation und Verwaltung quellübergreifender Beziehungen

Page 11: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 11

Anforderungen der Informationsfusion (2)

• Analyse und Verdichtung– Gewinnung von Daten einer „höheren“ Qualität durch Extrahieren von

Zusammenhängen und Abstraktionen, durch Filterung und Verdichtung der Daten

• Präsentation und Weiterverarbeitung• Repräsentation von Metainformationen

– Verwaltung von Metainformationen durch das System– Sukzessive Anpassung/Erweiterung der Metainformationen während des

Fusionsprozesses

Page 12: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 12

Anforderungen im Datenbankbereich

• Intelligente Unterstützung des Integrationsprozesses• Realisierung eines effizienten Datenzugriffs• Integration semistrukturierter Daten• Gewinnung von Metainformationen

Realisierung in DBMS durch– „offenen“ Optimierer– Integrationsmöglichkeiten– Unterstützung von „Ranking“– Repository für Metainformationen– Sampling

Page 13: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 13

Anforderungen im KDD-Bereich

• Behandlung verschiedener Datentypen• Behandlung unsicherer/vager Daten• Effizienz/Skalierbarkeit der Verfahren• Verbesserung Aussagefähigkeit/Verständlichkeit der

Daten

Page 14: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 14

Anforderungen an Systemarchitektur

• Unterstützung iterativer/interaktiver Arbeitsweisen• Anpassungsfähigkeit/Erweiterbarkeit des Systems• Nutzerunterstützung bei Auswahl/Anwendung von

Fusionsmethoden

Page 15: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 15

Übersicht• Motivation• Data Fusion/Informationsfusion

– Datenintegration/ -mangement– KDD und Data Mining– Datenfusion

• Anwendungsfelder der Informationsfusion• Anforderungen• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources

– Das „TSIMMIS Mediation System“– Zusammenfassung von TSIMMIS– Einschätzung des TSIMMIS Systems– Andere Ansätze zur Informationsintegration

• Informationsfusion - ein Ausblick• Literaturhinweise

Page 16: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 16

Das „TSIMMIS Mediation System“

Komponenten von TSIMMIS:

– OEM (Object Exchange Model)– Mediatoren– MSL (Mediator Specification

Language)– Wrapper– LOREL (Lightweight Object

REpository Language)

Mediator

Wrapper

InformationSource

Wrapper-Generator

Mediator-Generator

MSL oder LOREL

MSL

Page 17: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 17

Das Mediator KonzeptErmöglicht integrierte Sicht auf Information aus unterschiedlichen Datenquellen, die sich auf ein und dasselbe Objekt beziehen.

Anforderungen an Mediatoren:– Unterstützung breiter Vielfalt von Datenstrukturen– Behandlung unzureichender/vager Daten– Verwaltung von Metainformationen

Anforderungen an Anfragesprache:– Erstellung von Mediatoren– Kopplung von Mediatoren an vorhandene– Kopplung von Datenquellen an bereits vorhandene

Mediatoren

Mediatoren in TSIMMIS:– Berücksichtigung von „Fähigkeiten“ der Datenquellen– Zugriff auf Daten über Wrapper

Mediator

Mediator

Wrapper Wrapper

Source Source

Query

Page 18: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 18

OEM (Object Exchange Model)

Konzepte von OEM:– OEM ist selbsterklärend– Flexibilität– Objektorientiertheit– OEM ist logisches

Datenmodell

label type valueOID:

OEM-Objekt:

library set

book set

author string Aho

title string Compilers...

...

OEM-Objektstruktur:

Page 19: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 19

OEM als logisches Datenmodell

OEM - logisches Datenmodell auf Basis der Prädikatenlogik erster Stufe

Betrachtung von Labels als Prädikate, die ObjektIDs mit anderen ObjektIDs oder atomaren Werten verknüpfen.

Beispiele:– Prädikat library(B) nimmt als Wert ObjektIDs aus „Value“-Feld

an– Prädikat book(B,X) identifiziert Menge von Paaren (b,x)

• b: ID des Buch-Objekts• x: ObjektID aus Wertemenge von Buch

Page 20: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 20

MSL (Mediator Specification Language)

• erlaubt deklarative Spezifikation von Mediatoren• logische, objektorientierte Anfragesprache für OEM

Anfragen haben Form von Regeln:Regelkopf „:-“ Regelkorpus

Beispiel:

<booktitle X>:-<library{<book{<title X><author „Aho“>}>}>@s1

Regelkopf Regelkorpus

Page 21: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 21

Aufbau von Mediatoren in TSIMMIS

View Expander

Plan Generator

Execution Engine

Query

Source Queries

PlanPhysical

PlanLogical

SourceDescriptionsMatcher

Sequencer

Optimizer

Physical Plan

Logical Plan

Page 22: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 22

Templates zur Beschreibung von „Source Capabilities“

Verwendung von Templates für die Beschreibung der „Fähigkeiten“ zur Anfragebeantwortung von Quellen

Templates für s1 und s2:T11: X:-X:<entry {<title $T><author A><abs B>}>@s1

T21: X:-X:<entry {<title T><conf $C>}>@s2

T22: X:-X:<entry {<title $T><conf C>}>@s2

liefert:A,BTC

gegeben:TCT

Page 23: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 23

Wrapper in TSIMMIS

Wrapper bilden Schnittstellen zu den heterogenen Datenquellen:

– Umwandlung von Anfragen in Quellanfragen– Rückgabe von OEM Objekten

• Wrapper sind mit benutzerdefinierten Funktionen für jedes Template ausgestattet.

• Rest der Definition wie Mediator!

Page 24: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 24

Generierung von Mediatoren/Wrappern in TSIMMIS

In TSIMMIS stehen Tools für automatische Generierung von Mediatoren/Wrappern zur Verfügung

– Mediator Generator– Wrapper Generator

Page 25: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 25

LOREL (Lightweight Object Repository Language)

• LOREL ist OQL-basierte Anfragesprache für OEM-Modell• In TSIMMIS end-user Anfragesprache• Anfragesprache für das LORE lightweight Datenbanksystem zur

Speicherung von OEM-Objekten

Beispiel: Finde Bücher die von Aho verfasst wurdenSELECT library.book.title

(FROM library)WHERE library.book.author = „Aho“

Wichtiger Unterschied zu OQL und SQL: „partial match“ Semantik

Page 26: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 26

Zusammenfassung von TSIMMIS

Wichtigste Merkmale von TSIMMIS:• Nutzung von OEM-Modell• Konzept von Mediatoren und Wrappern• MSL• LOREL

Page 27: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 27

Einschätzung des TSIMMIS Systems

TSIMMIS ist ein System zur Informationsintegration.Vorteile:

– transparenter Zugriff auf heterogene verteilte Daten– Verarbeitung semistrukturierter Daten– Anfrageoptimierung– Ausweitung der Anfragemächtigkeit– Speicherung von Metadaten in ObjektIDs– Anpassungfähigkeit/Erweiterbarkeit

Nachteile:– keine Möglichkeit eines globalen Zugriffs auf lokale Optimierung– Darstellung von semantischen Zusammenhängen kompliziert

Page 28: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 28

Andere Ansätze zur Informationsintegration

Ansätze bisher:• Ansätze zur Integration von strukturierten Datenbanken• Abhängig von Datenmodellen mit großer „Semantik“

Alternativen zu TSIMMIS sind z.B:• The Information Manifold• SIMSUnterschiede zu TSIMMIS:• „Beurteilungsphase“ anstatt View Expander• Capability Records anstatt Templates (bei IM)• Wrapper schlanke Module, die nur direkte Anfragen zulassen (bei

IM)

Page 29: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 29

Übersicht• Motivation• Data Fusion/Informationsfusion

– Datenintegration/ -mangement– KDD und Data Mining– Datenfusion

• Anwendungsfelder der Informationsfusion• Anforderungen• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources

– Das „TSIMMIS Mediation System“– Zusammenfassung von TSIMMIS– Einschätzung des TSIMMIS Systems– Andere Ansätze zur Informationsintegration

• Informationsfusion - ein Ausblick• Literaturhinweise

Page 30: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 30

Informationsfusion - Ausblick

– Stetig wachsende Menge an verfügbarer Information – Problematik der effizienten Nutzung– Enormer Bedarf an Lösungen der intelligenten

Informationfusion– Rege Forschungstätigkeit, erste Produkte (DataJoiner

von IBM, OLECOM von Microsoft)

Es steht zu erwarten, dass es viele innovative Lösungsansätze oder Teillösungen auf dem Gebiet der Informationsfusion geben wird und muss!

Page 31: Seminar SS2000 - Data FusionFolie 1 Seminar Enterprise Application Integration Data Fusion Steffen Koch Betreuer: Holger Schwarz Universität Stuttgart.

Seminar SS2000 - Data Fusion Folie 31

Literatur• Stefan Conrad, Gunter Saake, Kai-Uwe Sattler (1999). Informationsfusion

- Herausforderungen an die Datenbanktechnologie. In: A.P. Buchmann (Hrsg.) Datenbanksysteme in Büro, Technik und Wissenschaft, Freiburg, 1.-3. März 1999, Springer, 1999. Seiten 307-316

• Hector Garcia-Molina, Yannis Papakonstantinou, Dallan Quass, Anand Rajaraman, Yehoshua Sagiv, Jeffrey Ullman, Vasilis Vassalos, Jennifer Widom (1997) The TSIMMIS Approach to Mediation: Data Models and Languages. In: Journal of Intelligent Systems, Volume 8, Number 2, March/ April 1997. Seiten 117-132.