Hrvatski jezičnotehnološki web -servisi?

17
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: 249119. Co-funded by the ICT PSP Programme of the European Commission through the contract CESAR, grant agreement no.: 271022. Hrvatski jezičnotehnološki web-servisi? Marko Tadić Sveučilište u Zagrebu Filozofski fakultet [email protected] CESAR Croatian Road Show Zagreb 2012-11-30

description

Hrvatski jezičnotehnološki web -servisi?. Marko Tadi ć Sveučilište u Zagreb u Filozofski fakultet marko.tadic @ ffzg.hr CESAR Croatian Road Show Zagreb 201 2 -1 1 - 30. Povezivanje. Danas živimo u svijetu koji je sve više i više povezan. Mobilni uređaji. Mobilno računarstvo. - PowerPoint PPT Presentation

Transcript of Hrvatski jezičnotehnološki web -servisi?

Page 1: Hrvatski jezičnotehnološki web -servisi?

Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: 249119.

Co-funded by the ICT PSP Programme of the European Commission through the contract CESAR, grant agreement no.: 271022.

Hrvatski jezičnotehnološkiweb-servisi?

Marko TadićSveučilište u Zagrebu

Filozofski [email protected]

CESAR Croatian Road ShowZagreb

2012-11-30

Page 2: Hrvatski jezičnotehnološki web -servisi?

Povezivanje

Danas živimo u svijetu koji je sve više i više povezan...

2

Page 3: Hrvatski jezičnotehnološki web -servisi?

Mobilni uređaji

3

Page 4: Hrvatski jezičnotehnološki web -servisi?

Mobilno računarstvo

Pred svega 30 godina...

Rezultati obradbe pregledavali su se na kilometrima ispisa

4

Page 5: Hrvatski jezičnotehnološki web -servisi?

Mobilno računarstvo

Ovolika računalnasnaga nije biladostupna općojpopulaciji

Međutim, danassvatko može imativiše računalnesnage i rezultatenjezine obradbeu svojim rukamaodmah i stalno 5

Page 6: Hrvatski jezičnotehnološki web -servisi?

Mobilno računarstvo

No, ipak u našimpametnimtelefonima nemožemo nositisve što nam treba,

a ne možemo ihni rastegnutikako bi u njihstrpali više...

6

Page 7: Hrvatski jezičnotehnološki web -servisi?

Računarstvo u oblaku

7

Page 8: Hrvatski jezičnotehnološki web -servisi?

Računarstvo u oblaku

Ono što nam treba je pristupna točka do oblaka...

8

Page 9: Hrvatski jezičnotehnološki web -servisi?

Mobilno i računarstvo u oblaku

9

Page 10: Hrvatski jezičnotehnološki web -servisi?

Mobilno i računarstvo u oblaku ne nosimo više sa sobom sve naše dokumente još uvijek trebamo velike izvore agregiranih podataka

enciklopedije (telefonske) imenike rječnike registre ...

ili usluge on-line tražilice uređivanje dokumenata provjera pravopisa strojno prevođenje ...

10

Page 11: Hrvatski jezičnotehnološki web -servisi?

Mobilno i računarstvo u oblaku brzine povezivanja rastu imamo pristupne točke u oblake s dovoljno lokalne

procesne snage ali još uvijek rabimo jezik

posvuda! ne samo jedan jezik!

još uvijek trebamojezične resurse i alate rječnike provjernike pravopisa strojeve za diktiranje strojno prevođenje ...

ne samo u našim džepovima, nego i kao usluge tj. web-servise 11

Page 12: Hrvatski jezičnotehnološki web -servisi?

On-line usluge

današnja mrežni-naraštaj uzima zdravo za gotovo gsm, internet i društvene mreže sve usluge koje su tamo dostupne

- uključujući i nove usluge kojih se još nismo niti dosjetili dostupnost svih informacija koje im trebaju kroz te on-line usluge

ako u svome vlastitome jeziku ne nađu ono što im treba, jednostavno to potraže u nekom drugom jeziku (najčešće engleskome) to je prvi korak prema digitalnome izumiranju njihova

materinskoga jezika to je početak potiranja europske i svjetske jezične raznolikosti u

21. stoljeću jezični resursi i alati kao on-line usluge za “male” jezike

osiguravaju njihovo preživljenje (ne samo u digitalnome svijetu) njihovu uporabu u budućnosti (osobito u digitalnome svijetu)

razvoj on-line jezičnih usluga košta jednako za “male” i “velike” jezike industrija obično nalazi komercijalni interes samo kod “velikih”

jezika političari i zajednica moraju naći načina kako pomoći “malim”

jezicima

12

Page 13: Hrvatski jezičnotehnološki web -servisi?

Hrvatski jezični web-servisi

skup web-servisa za računalnu obradbu tekstova na hrvatskome jeziku razdioba na rečenice (sentence splitting) opojavničenje (tokenisation) lematizacija (lemmatisation) označavanje vrsta riječi i/li gramatičkih kategorija (POS/MSD-

tagging) prepoznavanje imena (Named Entity Recognition and

Classification) sintaktička analiza u skladu s ovisnosnom gramatikom hrvatskoga

jezika (Dependency parsing) ulaz

hrvatski tekst kodiran u skladu s UTF-8 kodnom shemom #REST protokol

izlaz obrađen vertikaliziran tekst ili tekst u XML-zapisu (TEI P5)

ovi su web-servisi uz registraciju dostupni na adresi http://lt.ffzg.hr slobodna uporaba za istraživačke namjene (CC-BY-SA) uz pretplatu za komercijalne potrebe

13

Page 14: Hrvatski jezičnotehnološki web -servisi?

Hrvatski jezični web-servisi

demo kome ovi web-servisi trebaju?

razdioba na rečenice- prevođenje: kad se želi napraviti baza prevedenih rečenica

lematizacija- obradba tekstovnih baza podataka stvaranjem indeksa lema umjesto

različnica indeks je manji, brže se pretražuje intuitivno pretraživanje: dohvat riječi u svim oblicima

označavanje vrsta riječi i gramatičkih kategorija- leksikografija: npr. pronalaženje kolokacija kod kojih su kolokati

sročni prepoznavanje imena

- crpljenje obavijesti: pronalaženje relevantnih obavijesti u tekstovima- prepoznavanje veza među imenima u tekstovima: socijalno

obavještajstvo sintaktička analiza (parsing)

- razumijevanje teksta: prepoznavanje semantičkih uloga (agens, pacijens...)

- analiza stavova (sentiment analysis): marketing, poslovno obavještajstvo, ...

14

Page 15: Hrvatski jezičnotehnološki web -servisi?

Zaključci i perspektive

dajemo u javnu uporabu široko uporabive web-servise za hrvatski razvijeni unutar projekta CESAR istraživački tim s dvaju odsjeka Filozofskoga fakulteta Sveučilišta

u Zagrebu očekujemo razvoj novih web-servisa za

semantičko označavanje teksta: uporabom Hrvatskoga WordNeta (CroWN)

strojno prevođenje: uporabom platforme za izgradnju vlastitih strojnoprevoditeljskih sustava LetsMT!

očekujemo poticaj daljnjem razvoju jezičnih tehnologija u ostalim istraživačkim središtima u Hrvatskoj

jezične tehnologije za hrvatski jezik u Hrvatskoj moraju postati jedan od strateških pravaca istraživanja u humanističkim i

društvenim znanostima u novoj Strategiji razvoja obrazovanja, znanosti i tehnologije

nezaobilazno područje za koje će se pripremati projekti podupirani iz strukturnih fondova EU

sukladne svim nastojanjima oko jezičnih tehnologija u Obzoru2020 i CEF-u

16

Page 16: Hrvatski jezičnotehnološki web -servisi?

Zaključci i perspektive

u društvu gdje... podatci (i znanje pohranjeno u njima) postaju gorivo

gospodarstva povezanost postaje svakodnevna potreba je višejezičnost pravilo a ne iznimka

teško ćemo živjeti takvo informacijsko društvo bez on-line jezičnih usluga ne samo za svjetske jezike već i za mnogo drugih, “malih” jezika

17

Page 17: Hrvatski jezičnotehnološki web -servisi?

Pitanja...

Zahvaljujem na pozornosti.

http://www.cesar-project.net

[email protected]://www.cesar-project.net

http://www.facebook.com/META.Alliance

18