Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE

Post on 20-Dec-2014

159 views 0 download

Tags:

description

Georg Rehm and John H. Weitzmann. Lösungen für linguistische Ressourcen im Web - META-NET und META-SHARE. Innovationsforum Semantic Media Web, Berlin, Germany, September 2013. September 26, 2013. Talk.

Transcript of Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE

Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).

Lösungen für linguistische Ressourcen im Web: META-NET und META-SHARE

Innovationsforum Semantic Media Web Berlin – 26. September 2013

Georg Rehm

DFKI GmbH, Berlin

georg.rehm@dfki.de

John H. Weitzmann

iRights.Law

j.weitzmann@irights-law.de

Inhalt

q  META-NET und das mehrsprachige Europa

q  Europas Sprachen im digitalen Zeitalter

q  Sprachressourcen und Sprachtechnologien

q  META-SHARE

q  META-TRUST

q  Schlussfolgerungen

http://www.meta-net.eu 2

Das mehrsprachige Europa

3 http://www.meta-net.eu

q  Herausforderung: Jeder Sprachgemeinschaft die besten und am weitesten fortgeschrittenen IKT zur Verfügung zu stellen, so dass Nutzung und Pflege der Muttersprache keinen Nachteil darstellen.

q  Forschung: Gute Fortschritte in den letzten Jahren, aber die Geschwindigkeit des Fortschritts ist nicht schnell genug, um die Herausforderung in den nächsten 10-20 Jahren zu bewältigen.

q  Alle Beteiligten – Forscher, LT-Industrie (Nutzer, Anbieter), Sprachgemeinschaften, Forschungsförderer, Politik, Verwaltungen etc. – sollten sich in einer strategischen Allianz zusammenschließen, um für einen großen, dedizierten Push zu sorgen.

Ziel

META-NET ist ein Exzellenznetzwerk. Das Ziel: Die technologischen Grundlagen der mehrsprachigen

europäischen Informationsgesellschaft zu unterstützen.

http://www.meta-net.eu 4

Vier EU-Projekte

q  Projekt: T4ME ab Feb. 2010 (FP7; 13 Partner, 10 Länder)

q  Drei ICT-PSP Konsortien ab Feb. 2011: CESAR, METANET4U, META-NORD

q  Gesamtkosten ca. 19M€

q  Alle EU-Mitgliedsstaaten und div. weitere Länder abgedeckt.

q  META-NET im Sept. 2013: 60 Mitglieder in 34 Ländern.

q  Die vier Projekte endeten am 31. Januar 2013. Die Initiative läuft weiter.

http://www.meta-net.eu 5

http://www.meta-net.eu/members

META-FORUM 2013 19./20.09., Berlin

http://www.meta-net.eu 6

Europas Sprachen im digitalen Zeitalter

http://www.meta-net.eu 7

Language White Paper Serie

http://www.meta-net.eu 8

q  “Europe’s Languages in the Digital Age”.

q  Stand der Sprache im digitalen Zeitalter.

q  Unterstützung durch Sprachtechnologie.

q  Gesellschaftliche und technologische Probleme; Herausforderungen und Möglichkeiten.

q  Zielgruppe: Entscheider, Journalisten.

q  31 Bände zu 30 Sprachen.

q  >200 nationale/regionale Experten.

q  >8.000 Exemplare an Politiker und Journalisten verteilt.

http://www.meta-net.eu/whitepapers

Sprachübergreifender Vergleich

q  Grad der Unterstützung für vier Anwendungsgebiete – von „exzellenter Support“ bis hin zu „schwacher/kein Support“:

1.  Masch. Übersetzung

2.  Gesprochene Sprache

3.  Text-Analytics

4.  Sprachressourcen

q  Ergebnisse finalisiert bei einem Treffen von Repräsentanten aller Sprachen (Okt. 2011).

http://www.meta-net.eu 9

MT

http://www.meta-net.eu 10

English

good

French, Spanish

moderate fragmentary

Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian

weak or no support

Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician,

Greek, Icelandic, Irish, Latvian, Lithu-anian, Maltese, Norwegian, Portuguese,

Serbian, Slovak, Slovene, Swedish

excellent

Czech, Dutch, Finnish, French, German,

Italian, Portuguese, Spanish

moderate fragmentary

Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek,

Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish

weak or no support

Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian

excellent

English

good

Spee

ch

English

good

Dutch, French, German, Italian,

Spanish

moderate fragmentary

Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak,

Slovene, Swedish

weak or no support

Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian

excellent

English

good

Czech, Dutch, French, German, Hungarian,

Italian, Polish, Spanish, Swedish

moderate fragmentary

Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician,

Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene

Icelandic, Irish, Latvian, Lithuanian, Maltese

weak/no support excellent

Res

ourc

es

Text

Ana

lysi

s

Digitales Aussterben

q  Zusammengefasst:

21 europäische Sprachen vom digitalen Aussterben bedroht!

q  PM veröffentlicht am europäischen Tag der Sprachen (26.09.2012).

q  Riesiges Interesse an dem Thema und unseren Ergebnissen.

q  600+ Nennungen in der Presse.

q  50+ Interviews mit Repräsentanten von META-NET (ca. 30 Radiointerviews, ca. 25 Fernsehberichte).

q  Berichte aus 40+ Ländern in 35+ verschiedenen Sprachen.

q  Zwei parlamentarische Anfragen im Europaparlament.

http://www.meta-net.eu 11

Strategische Forschungsagenda

http://www.meta-net.eu 12

q  Drei Prioritätsforschungsthemen.

q  Zielgruppe: Entscheider in EP/EC.

q  >190 Beiträger; >2 Jahre.

q  Beiträger: 54% Industrie; 46% Forschung; 4% nationale und internationale Institutionen.

q  Präsentiert und diskutiert bei >80 Konferenzen und Workshops.

q  Publiziert im Januar 2013.

q  http://www.meta-net.eu/sra

Prioritätsforschungsthemen

q  Drei Prioritätsforschungsthemen:

§  Translingual Cloud

§  Social Intelligence and e-Participation

§  Socially-Aware Interactive Assistants

q  Zwei zusätzliche Themen:

§  European Service Platform for LT

§  Core Technologies for Language Analysis and Production

http://www.meta-net.eu 13

Sprachressourcen und Sprachtechnologien

http://www.meta-net.eu 14

LRs und LTs

q  Sprachtechnologien (Language Technologies): Software

§  Tools, Module, Frameworks, Pakete, Applikationen etc.

§  Aktuelle Sprachtechnologien basieren auf regelbasierten oder auf statistischen Verfahren (maschinelles Lernen)

q  Sprachressourcen (Language Resources): Daten

§  Sehr große Datenmengen, Milliarden von Wörtern (GB, tw. TB)

§  Daten werden manuell, semiautomatisch oder vollautomatisch mit linguistischen Informationen – Metadaten – annotiert (z.B. XML)

§  Nutzung im Rahmen von maschinellen Lernverfahren

http://www.meta-net.eu 15

META-SHARE META-NET

http://www.meta-net.eu 16

META-SHARE: Überblick

http://www.meta-net.eu 17

q  Es gibt tausende von Sprachressourcen. Zu geringe Sichtbarkeit ist ein riesiges Problem. Ihre Entwicklung ist oftmals extrem teuer.

q  META-SHARE ist eine offene Infrastruktur für den Austausch von Sprachressourcen und Sprachtechnologien (zentrale Sammelstelle).

q  Dokumentation, Katalogisierung, Verteilung, Visibilität, Identifizierung, Verfügbarkeit, Nachhaltigkeit, Interoperabilität.

q  Peer-to-Peer-Repositorys speichern und verwalten Ressourcen. Metadaten werden exportiert und zentral gesammelt.

q  Ziel: Forschung, Technologieentwicklung und Innovation fördern.

q  Software-Engineering an 5 Zentren (DFKI, ILSP, CNR, FBK, ELDA).

q  Derzeit 27 Repositorys und 2.300+ Ressourcen.

http://www.meta-net.eu 18

META-SHARE: Rechtliches

q  Language Resources Sharing Charter – Plakative Prinzipien, die sharing and reuse of language resources propagieren.

q  Licensing Templates – Creative Commons Lizenzen und META-SHARE Commons-Lizenzen (öffentlich vs. netzwerkintern).

q  Depositor’s Agreement – Der Datenlieferant autorisiert das jeweilige Repository, eine Ressource aufzunehmen und anzubieten.

q  Memorandum of Understanding – Spezifiziert Mitgliedschaft im META-SHARE-Netzwerk (Managing Nodes vs. Network Nodes vs. Depositors vs. Associate Members)

http://www.meta-net.eu 24

META-TRUST

META-NET

http://www.meta-net.eu 25

Rechtliche Mitspieler

q  Sprachressourcen:

§  Primärdaten: Rechteinhaber x (z.B. Verlage, Website-Betreiber etc.)

§  Sekundärdaten Ebene A: Rechteinhaber y (z.B. Forschungszentrum)

§  Sekundärdaten Ebene B: Rechteinhaber z (z.B. Universität)

§  Sekundärdaten Ebene C: ...

q  META-SHARE: Betreiber der Infrastruktur; Betreiber des Knotens

q  Nutzer: Forschung vs. Industrie (kommerziell vs. nicht-komm.)

q  META-TRUST: Rolle des Community-getriebenen Trust-Centers, das unabhängig von Forschungszentren ist, die jeweils einzelne Knoten des META-SHARE-Netzwerks betreiben.

http://www.meta-net.eu 26

META-TRUST AISBL

q  Association internationale sans but lucratif (non-profit organisation) q  Rechtliche Person, so dass META-NET Verträge unterzeichnen,

Rechte innehaben und Lizenzen vergeben. q  Schlanke Hierarchie und Struktur der Mitgliedschaft (Personen!). q  Registriert im September 2012 in Antwerpen, Belgien. q  Steering Committee: Fünf Mitglieder. q  Advisory Board: META-NET Executive Board. q  Fungiert als Trust-Center qua Reputation der Mitglieder. q  Steigert die Nachhaltigkeit von META-SHARE und der Ressourcen.

http://www.meta-net.eu 27

http://www.meta-trust.eu

Szenario: Datenbereitstellung

http://www.meta-net.eu 28

Organisation X möchte Sprachressource Y durch META-SHARE zur Verfügung stellen.

entwickelt, implementiert, kontrolliert wird repräsentiert durch legale Person

Depositor’s Agreement zwischen X und META-TRUST: X: „Wir geben META-TRUST das nicht-exklusive, nicht widerrufbare Recht, unsere Sprachressource Y durch META-SHARE für Forschungszwecke anzubieten.“ META-TRUST: “Wir möchten Y möglichst nachhaltig anbieten. Wir garantieren, dass wir Y nur an diejenigen Nutzer ausliefern, die eure Lizenzbedingungen explizit akzeptieren. Eure Bedingungen werden an die Nutzer durchgereicht, die sie bestätigen müssen.“

Y besitzt eine Lizenz

Szenario: Download von Daten

http://www.meta-net.eu 29

Nutzer Z möchte Y über META-SHARE herunuterladen

Nutzungsbedingungen von META-SHARE: Z: „Ich habe die Nutzungsbedingungen gelesen und akzeptiere diese. Ich bin berechtigt, Y zu beziehen. Ich werde Y nur für Forschungszwecke einsetzen und die Nutzungsbedingungen und Lizenzen von Y berücksichtigen.“ META-TRUST: „Wir sind ein Trust-Center und stellen Sprachressourcen zur Verfügung – von der Community für die Community. Wir fungieren lediglich als Vermittler der Bedingungen der Datenlieferanten.“

zeichnet Web-Formular lädt Y herunter

Datenlieferant X setzte spezifische Bedingungen. Nutzer Z muss zustimmen.

entwickelt, implementiert, kontrolliert wird repräsentiert durch legale Person

Schlussfolgerungen META-NET

http://www.meta-net.eu 30

Schlussfolgerungen

q  Ziel von META-SHARE: Sammeln und Anbieten von Ressourcen und Technologien, um Forschung und Innovation zu stimulieren.

q  Infrastrukturen wie META-SHARE sind hochgradig komplexe Herausforderungen mit verschiedenen Dimensionen: technisch, politisch, kulturell, (wissenschafts)historisch, gesellschaftlich etc.

q  Eine nachhaltige Lösung benötigt drei bis fünf Jahre – und sehr viele Diskussionen über rechtliche Aspekte, Metadatenschemata, Standards, andere Initiativen etc.; Implementierung, Debugging etc.

q  Spezielle Details unserer Lösung sind noch immer in Diskussion.

q  Relevante, bereits existierende Organisationen agieren zögerlich und ängstlich — Überzeugung einiger Kollegen hat Jahre gedauert.

http://www.meta-net.eu 31

Herzlichen Dank!

http://www.meta-net.eu http://www.facebook.com/META.Alliance

32

Q/A

Vision GroupTranslation and Localisation

Vision GroupInteractive Systems

Vision GroupMedia and Information Services

StrategicResearchAgenda

META-NET Website

Language White Paper Series

ConneDeliverin

2014-2020TransportEnergyConnect

http://www.meta-net.eu

2010

2011

2012

2013

Horizon 2020