Prof.Dr.Philipp Cimiano »Towards Linked Open Science« · 2013. 10. 18. · Findung und...
Transcript of Prof.Dr.Philipp Cimiano »Towards Linked Open Science« · 2013. 10. 18. · Findung und...
AG Semantic Computing
Prof. Dr. P. Cimiano
2. Workshop Forschungsinformationssysteme in Deutschland
Prof. Dr. Philipp Cimiano
»Towards Linked OpenScience«
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Linked Data als Basistechnologie
I Linked Open Science Aktivitäten am CITEC
I Herausforderungen für die Universitäten /
Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
Zu meiner Person
I Professor für Informatik an der Technischen Fakultät, Universität
Bielefeld
I Inhaber des Lehrstuhls »Semantische Datenbanken«
I Initiator der Task Force »Forschungsdatenmanagement« am
Excellenz-Cluster CITEC / Bibliothek Bielefeld
I Erforschung neuer Ansätze für das Management und
Veröffentlichung von Forschungsdaten
I Derzeit: Arbeit an einem »Open Science Manifesto« für das CITEC
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Motivation für die Veröffentlichung von Forschungsdaten
I Aktivitäten am CITEC
I Linked Data als Basistechnologie
I Herausforderungen für die Universitäten /
Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
Papers, papers, papers, ...
AG Semantic Computing
Prof. Dr. P. Cimiano
Berlin Open Access Declaration
Berlin Declaration on Open Access to Knowledge in the Sciences and
Humanities (2003):
»Establishing open access as a worthwhile procedure ideally requires
the active commitment of each and every individual producer of
scientific knowledge and holder of cultural heritage. Open access
contributions include original scientific research results,
raw data and metadata, source materials, digital representations of
pictorial and graphical materials and scholarly multimedia material.«
AG Semantic Computing
Prof. Dr. P. Cimiano
Forschungsdaten selten frei verfügbar
I Forschung: Mangelnde Transparenz, eingeschränkte
Reproduzierbarkeit der Ergebnisse
I Forschungsförderung: Förderung doppelter Arbeit
I Gesellschaftliche/Ökonomische Perspektive: Nützliche Daten
stehen nicht zur Verfügung und können nicht wiederverwendet
werden
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Motivation für die Veröffentlichung von Forschungsdaten
I Linked Data als Basistechnologie
I Aktivitäten am CITEC
I Herausforderungen für die Universitäten /
Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
Linked Open Science Vision
Linked Open Science Vision
Forschungsdaten sind universell, direkt und frei über das Web
verfügbar. Forschungsdaten sind verknüpft, dass die Beziehung
zwischen Daten explizit gemacht werden kann und so die Integration
verschiedener Datenquellen vereinfacht wird.
AG Semantic Computing
Prof. Dr. P. Cimiano
Linked Open Science
I Forschungsdaten: Papiere, rohe Daten, Analysen,
Beschreibungen experimenteller Prozeduren, Protokolle, etc.
I universell: verfügbar für alle, ohne Einschränkung, weltweit
I direkt: ohne Umwege; keine Anfrage oder Beantragung
notwendig
I frei: kostenlos
I über das Web: W3C Standards, HTTP Protocol, standardisierte
Datenformate (z.B. RDF); nur Internet und Browser nötig (keine
proprietären Platformen oder Tools)
I verlinkt: Verknüpfung von Daten; Netz Forschungsdaten und
-artefakten; globaler und ganzheitlicher Ansatz
AG Semantic Computing
Prof. Dr. P. Cimiano
Positionen der Förderorganisationen undwissenschaftsberatenden Organisationen
Gemeinsame Wissenschaftskonferenz des Bundes und der Länder,
»Gesamtkonzept für die Informationsinfrastruktur in Deutschland«:
» Jede datenintensive Forschungsaktivität sollte einen Datenmanagementplan
formulieren, in dem dokumentiert ist, welche Daten in welchen Verarbeitungsstufen
wann und wie zugänglich gemacht werden, wie sie dokumentiert werden und wie
lange sie aufbewahrt werden sollen (z. B. 1, 5 oder 10 Jahre).«
AG Semantic Computing
Prof. Dr. P. Cimiano
Positionen der Förderorganisationen undwissenschaftsberatenden Organisationen
Wissenschaftsrat, »Empfehlungen zur Weiterentwicklung der
wissenschaftlichen Informationsinfrastrukturen in Deutschland bis
2020«
»Um einen
verlässlichen und langfristigen Zugang zu Forschungsdaten zu ermöglichen,
müssen die Daten aufbereitet und dokumentiert werden. [...] Zur Verbesserung der
Speichermöglichkeiten und des Zugangs zu Forschungsdaten sollte das
Netz der Forschungsdaten und Datenservicezentren ausgebaut werden; dies gilt in
besonderem Maße für den Bereich der qualitativen Forschungsdaten. Die
Forschungsdatenzentren können direkt bei den Datenproduzenten (auch an
Hochschulen), bei Archiven oder Forschungseinrichtungen mit Archivfunktionen
eingerichtet sein.«
AG Semantic Computing
Prof. Dr. P. Cimiano
Positionen der Förderorganisationen undwissenschaftsberatenden Organisationen
EU/Horizon 2020:
»As all research and innovation builds on earlier achievements,
an efficient system for broad dissemination of and access to research publications
and raw data can accelerate scientific progress. This is essential for Europe's ability to
enhance its economic performance and improve its capacity to compete through
knowledge.«
AG Semantic Computing
Prof. Dr. P. Cimiano
Positionen der Förderorganisationen undwissenschaftsberatenden Organisationen
Research Council, UK, Common principles on Data Policy:
»Publicly funded research data are a public good, produced in the public interest,
which should be made openly available.«
AG Semantic Computing
Prof. Dr. P. Cimiano
Bedenken gegen Veröffentlichung
I Hoher Aufwand zur Erhebung der Daten => exklusive Nutzung?
I Wettbewerbsvorteil (Publikationen, Karriere, ...) => Anreize für
die Veröffentlichung von Daten
I Fehler könnten entdeckt werden! => Tja...
I Hoher Aufwand bei der Veröffentlichung, Aufbereitung =>
Unterstützung durch Forschungseinrichtungen, Infrastruktur,
Beratung
Diese Bedenken sind verständlich und valide, sie sind zu Gunsten
übergeordneter Vorteile (Transparenz, effiziente Nutzung von
Fördermitteln, etc.) zurückzustellen.
Die offene Bereitstellung von Forschungsergebnissen ist ein Kernaspekt
von Wissenschaft: Hippokratischer Forschungseid!
AG Semantic Computing
Prof. Dr. P. Cimiano
Hypothetischer »hippokratischer«Forschungseid
» Ich erkenne an, dass die relevanten Durchbrüche in der Wissenschaft nicht auf die
Leistung einzelner Forscher, sondern auf das Zusammenwirken von vielen Forschern
aus verschiedenen Ländern, Disziplinen und Generationen zurückzuführen ist. Daher
verpflichte ich mich, alle meine Ergebnisse und Daten so zur Verfügung zu stellen,
dass der universelle und freie Zugang darauf gewährleistet ist und die
Forschungsgemeinschaft jederzeit meine Daten und Ergebnisse weiterverwenden
kann, um sie zu validieren, neu zu analysieren, neu zu interpretieren, in einem neuen
Kontext zu verwenden, andere Ergebnisse zu vergleichen, etc.«
AG Semantic Computing
Prof. Dr. P. Cimiano
Mehrwerte für die Gesellschaft
Transparenz hat viele Vorteil:
I Effektivere Nutzung von Fördermitteln: durch
Wiederverwendung bereits erhobener Daten, Vermeidung von
Verdopplung von Arbeit
I Neue Interpretationen: durch andere Methoden, die dem
ursprünglichen Forscherteam nicht zur Verfügung standen
I Höhere Effizienz in der Wissenschaft: schnellere Validierung bzw.
Bestätigung von Ergebnissen
I Bessere Qualitätskontrolle und -sicherung: Fehler und Irrwege
schneller erkannt
AG Semantic Computing
Prof. Dr. P. Cimiano
Mehrwerte für den Forscher
I Effizienteres Arbeiten: durch Verwendung anderer Datensätze
statt Neuerhebung; kürzere Wege von der Erstellung einer
Hypothese zu ihrer experimentelle Validierung
I Stärkere Interaktion mit anderen Forschern: die auf den
gleichen Daten arbeiten!
I Bestätigung der Ergebnisse durch Dritte: unabhängige
Validierung der Ergebnisse, Generalisierung => höhere
Anerkennung
I Anerkennung als Urheber eines Datensatzes: muss natürlich
stärker gewürdigt werden!
AG Semantic Computing
Prof. Dr. P. Cimiano
Mehrwert für dieUniversitäten/Forschungseinrichtungen
I Öffentliche Anerkennung: Transparenz findet grundsätzlich
Anerkennung
I Höhere Sichtbarkeit: neue Möglichkeiten des Zitierens
I Controlling/Transparenz: Welche Daten haben wir eigentlich? Wer
nutzt sie? Für welche Zwecke?
I Reporting wird vereinfacht: Metadaten der Publikationen
verfügbar
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Linked Data als Basistechnologie
I Linked Open Science Aktivitäten am CITEC
I Herausforderungen für die Universitäten /
Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
RAW DATA NOW!
AG Semantic Computing
Prof. Dr. P. Cimiano
Linked Data Cloud
AG Semantic Computing
Prof. Dr. P. Cimiano
Anwendung der Linked Data Prinzipien aufdas Management von Forschungsdaten
I Idee: erzeuge ein Ökosystem verlinkter Forschungsartefakte
(Publikationen, Metadaten, Rohdaten, etc.), welches die Suche,
Findung und Wiederverwendung von Daten erleichtert.
I Technik prinzipiell vorhanden: WWW, HTTP,
Standard-Datenmodelle (RDF) und Anfragesprachen (SPARQL)
I Fehlend: Prozesse, Anreize, Methodologie, Richtlinien,
Pilotprojekte, stärkere Unterstützung und Begleitung der Forscher
durch Forschungseinrichtungen, Manpower, Expertise
AG Semantic Computing
Prof. Dr. P. Cimiano
Stand der Technik (zur Realisierung derLinked Open Science Vision)
I Linked Data
I Datenmodelle: RDF
I verteilte Anfragesprachen: SPARQL
I Vokabulare: bibliographische Daten (BIBO, PRISM, ISBD),
Provenance (Open Provenance Model, Provenir, PML),
disziplin-spezifische Vokabulare
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Linked Data als Basistechnologie
I Linked Open Science Aktivitäten am CITEC
I Herausforderungen für die Universitäten /
Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
Aktivitäten am CITEC
I Open Source Server
I Beratung zu Lizenzfragen
I Beratung zur Erstellung von Data-Management-Pläne
I Schulung des Nachwuchses (Doktorandenseminare)
I Pilotprojekte mit dem Ziel, Workflows, Richtlinien zu erarbeiten
sowie Expertise & Kompetenz zu erzeugen
AG Semantic Computing
Prof. Dr. P. Cimiano
Fallbeispiele / Piloten
I Forschung im Bereich des Forschungsdatenmanagements (FDM)
I Entwicklung von Piloten die aufzeigen, was eines Tages möglich
sein könnte
I Fallbeispiele aus den Naturwissenschaften: datenintensiv,
empirisch
AG Semantic Computing
Prof. Dr. P. Cimiano
Biologie: Bewegung von Stabheuschrecken
AG Semantic Computing
Prof. Dr. P. Cimiano
Biologie: Bewegungen vonStabheuschrecken
AG Semantic Computing
Prof. Dr. P. Cimiano
Anwendungsfall Biologie
Ein Forscher möchte alle weltweit verfügbaren Bewegungsdaten für
Stabheuschrecken haben. Er möchte anhand dieser Daten die
Positionen der Gelenke bei bestimmten Bewegungen berechnen und
damit eigene Daten überprüfen bzw. validieren.
AG Semantic Computing
Prof. Dr. P. Cimiano
Pilot
I Vergabe einer DOI für Datensatz von Völker Dürr
I Publikation der DOI
I Publikation der Daten als Linked Data (in Arbeit)
I Unterstützung der Navigation der Daten sowie das Stellen
beliebiger Anfragen
AG Semantic Computing
Prof. Dr. P. Cimiano
Anwendungsfall: Chemie
AG Semantic Computing
Prof. Dr. P. Cimiano
Anwendungsfall:Glassübergangstemperatur von Areosolen
I Glasübergangstemperaturen von Aerosolen
I Aufwand: > 100 Stunden
I Ergebnis: Tabelle mit 596 Temperatur-Datenpunkten aus 22
Publikationenm, zusammen mit Informationen zu
Messmethoden, Herkunft der Daten
I Daten aus Publikationen aus 8 Ländern: USA (7), Japan (3), India
(1), Finland (1), Canada (2), Slowenien (1), Portugal (1), UK (1)
I Interessante Option: eine Anfrage an eine Suchmaschine, die
Daten vieler Forscher / Universitäten indexiert hat
AG Semantic Computing
Prof. Dr. P. Cimiano
Daten sind verteilt
AG Semantic Computing
Prof. Dr. P. Cimiano
Verteilte Architektur für Linked OpenScience
Forschungs-Suchmaschinen
Forschungs-einrichtungenUNIBI MIT KIT Stanford
Wissenschaftler
Navigieren, Anfragen, ...
AG Semantic Computing
Prof. Dr. P. Cimiano
Struktur des Vortrages
I Einführung
I Status Quo
I Linked Open Science Vision
I Linked Data als Basistechnologie
I Linked Open Science Aktivitäten am CITEC
I Herausforderungen für die Universitäten /Forschungseinrichtungen
I Zusammenfassung
AG Semantic Computing
Prof. Dr. P. Cimiano
Universitäten u. Forschungseinrichtungenals Forschungsdaten-Hubs
I Knotenpunkte in diesem Linked-Open-Science-Ökosystem =>
hohe Verantwortung
I Hosts von Daten (eigene, aber auch Spiegelung von Daten anderer
Forschungseinrichtungen) => Sicherheit
I Indexierung durch Suchmaschinen
AG Semantic Computing
Prof. Dr. P. Cimiano
Herausforderungen organisatorischer Art
UniversitäresFDM
Rechenzentrum
ZentraleEinrichtungen
Bibliothek
Wissenschaftler
AG Semantic Computing
Prof. Dr. P. Cimiano
Effektives FDM zum Nulltarif?
I Workflows, Prozesse
I Einigung auf Vokabulare
I Implementierung einer Infrastruktur
I Daten-Kuratoren
I Qualitätsprüfung
I Beratung für Wissenschaftler (technisch, rechtlich, ...)
I Schulungen
Wer übernimmt diese Verantwortung/Kosten?
AG Semantic Computing
Prof. Dr. P. Cimiano
Roadmap/Vision für CITEC:
CITEC: dezidierte FDM-Stelle, Central Labs gibt technische
Unterstützung, Zusammenarbeit mit Bibliothek (Najko Jahn)
I PUB: Repository für Publikationen (Metadaten, in Arbeit:
Metadaten als RDF verfügbar)
I DOIs für Daten, verlinkt mit Publikation
I CITEC: Open Source Server
I Piloten, welche die Mächtigkeit des Linked Data Ansatzes zeigen
(Suche nach Informationen)
I Schulung des Nachwuchses
AG Semantic Computing
Prof. Dr. P. Cimiano
Zusammenfassung
I Linked Open Science: Ökosystem offener, freier und verlinkter
Daten zu Personen, Einrichtungen, experimentellen Daten,
Metadaten von Publikationen, etc.
I in Einklang mit Berlin Declaration sowie Richtlinien von
Fördergesellschaften u. wissenschaftsberatenden Organisationen
I Mehrwert für Gesellschaft, Forscher und Universitäten
I Universitäten/Forschungseinrichtungen als Hubs in diesem
Ökosystem mit entsprechender Verantwortung
I Abstimmung zwischen relevanten Bereichen: RZ / Bibliothek /
Zentrale Einrichtungen / Wissenschaftler
I Prominente Beispiele: Münster (Linked Data), Open University
(Anwendungsfall: Reporting)