Lengua italiana

download Lengua italiana

of 77

Transcript of Lengua italiana

  • 7/23/2019 Lengua italiana

    1/77

    White Paper Series

    THE ITALIANLANGUAGE IN

    THE DIGITAL

    AGE

    Collana Libri Bianchi

    LA LINGUAITALIANANELLERA

    DIGITALE

    Nicoletta CalzolariBernardo MagniniClaudia SoriaManuela Speranza

  • 7/23/2019 Lengua italiana

    2/77

  • 7/23/2019 Lengua italiana

    3/77

    White Paper Series

    THE ITALIANLANGUAGE IN

    THE DIGITAL

    AGE

    Collana Libri Bianchi

    LA LINGUAITALIANANELLERA

    DIGITALE

    Nicoletta Calzolari CNR-ILCBernardo Magnini FBKClaudia Soria CNR-ILCManuela Speranza FBK

    Georg Rehm, Hans Uszkoreit

    (curatori,editors)

  • 7/23/2019 Lengua italiana

    4/77

    PREFAZIONE PREFACE

    uesto Libro Bianco fa parte di una collana che inten- is white paper is part of a series that promotes

    de promuovere la conoscenza in merito alle tecnologie knowledge about language technology and its poten-

    del linguaggio e al loro potenziale. Si rivolge, tra gli al- tial. It addresses journalists, politicians, language com-

    tri, ai giornalisti, i politici, gli educatori e le comuni- munities, educators and others. e availability and

    t linguistiche. La disponibilit e luso delle tecnologie use of language technology in Europe varies between

    del linguaggio in Europa variano da lingua a lingua, e languages. Consequently, the actions that are required

    di conseguenza differiscono anche le azioni richieste to further support research and development of lan-

    per sostenere la ricerca e lo sviluppo di tali tecnologie. guage technologies also differ. e required actions

    Gli interventi necessari dipendono da molti fattori, tra depend on many factors, such as the complexity of a

    i quali la complessit di ciascuna lingua e le dimensioni given language and the size of its community.

    della comunit che vi fa riferimento. META-NET, a Network of Excellence funded by the

    META-NET, una Rete di Eccellenza finanziata dalla European Commission, has conducted an analysis of

    Commissione Europea, con questa Collana di Libri current language resources and technologies in this

    Bianchi ha condotto unanalisi delle risorse e delle tec- white paper series (p.69). e analysis focused on the

    nologie linguistiche attualmente esistenti (p.69). La- 23 official European languages as well as other impor-

    nalisi si concentrata sulle 23 lingue europee ufficiali tant national andregional languages in Europe. e re-

    e su altre importanti lingue nazionali e regionali dEu- sults of this analysis suggest that there are tremendous

    ropa. I risultati di questa analisi indicano che per tut- deficits in technology support and significant research

    te le lingue considerate esistono dei deficit tecnologi- gaps for each language. e given detailed expert anal-

    ci enormi e significative lacune nella ricerca. Lanalisi ysis and assessment of the current situation will help

    dettagliata che viene fornita, insieme a una valutazione maximise the impact of additional research.

    della situazione attuale, potr consentire di massimiz- As of November 2011, META-NET consists of 54

    zare limpatto delle ricerche future. research centres in 33 European countries (p. 65).

    A novembre 2011, META-NET composta da 54 META-NET is working with stakeholders from econ-

    centri di ricerca, dislocati in 33 paesi europei (p.65). omy (soware companies, technology providers and

    META-NET collabora con aziende commerciali, enti users), government agencies, research organisations,

    governativi, industrie, organizzazioni di ricerca, com- non-governmental organisations, language communi-

    pagnie produttrici di soware e universit europee. In- ties and European universities. Together with these

    sieme a queste comunit, META-NET sta creando una communities, META-NET is creatinga common tech-

    visione comune sulla tecnologia e unagenda di ricerca nology vision and strategic research agenda for multi-

    strategica condivisa per lEuropa multilingue del 2020. lingual Europe 2020.

    III

  • 7/23/2019 Lengua italiana

    5/77

    META-NET [email protected] http://www.meta-net.eu

    GliautoridiquestodocumentosonogratiagliautoridelLibroBianco sulla lingua tedesca per aver consentito di riutilizzarealcuni materiali selezionati dal loro documento [1].

    uesto Libro Bianco stato finanziato dal Settimo Program-ma uadro e dal Programma di sostegno alla politica in ma-

    teria di TIC (tecnologie dellinformazione e delle comunica-zioni) della Commissione Europea nellambito dei contrattiT4ME (accordo di finanziamento 249119), CESAR (accor-do di finanziamento 271 022), METANET4U (accordo di fi-nanziamento270 893) e META-NORD (accordo di finanzia-mento 270 899).

    e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

    e development of this White Paper has been funded by theSeventh Framework Programme and the ICT Policy Support

    Programme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).

    IV

  • 7/23/2019 Lengua italiana

    6/77

    INDICE CONTENTS

    LA LINGUA ITALIANA NELLERA DIGITALE

    1 Sommario 1

    2 Le nostre lingue a rischio: Una sfida per le tecnologie del linguaggio 42.1 I confini linguistici frenano la societ europea dell'Informazione . . . . . . . . . . . . . . . . . . . 5

    2.2 Le nostre lingue a rischio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.3 La tecnologia del linguaggio una tecnologia fondamentale . . . . . . . . . . . . . . . . . . . . 6

    2.4 Le opportunit per le tecnologie linguistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.5 Le sfide delle tecnologie linguistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.6 L'acquisizione del linguaggio negli umani e nelle macchine . . . . . . . . . . . . . . . . . . . . . 8

    3 La lingua italiana nella societ europea dell'informazione 103.1 Aspetti generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.2 Particolarit della lingua italiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.3 Sviluppi recenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.4 Iniziative per la promozione della lingua italiana . . . . . . . . . . . . . . . . . . . . . . . . . . 123.5 La lingua nel settore della formazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    3.6 L'italiano su Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    4 Le tecnologie linguistiche per l'italiano 144.1 Architetture applicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4.2 Ambiti applicativi principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    4.3 Altre aree applicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    4.4 Programmi formativi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.5 Progetti e iniziative nazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.6 Disponibilit di strumenti e risorse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    4.7 Confronto fra le lingue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    4.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    5 META-NET 32

  • 7/23/2019 Lengua italiana

    7/77

    THE ITALIAN LANGUAGE IN THE DIGITAL AGE

    1 Executive Summary 33

    2 Languages at Risk: a Challenge for Language Technology 362.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 37

    2.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 38

    2.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    2.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    2.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3 The Italian Language in the European Information Society 413.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Particularities of the Italian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    3.4 Official Language Protection in Italy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.6 Italian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4 Language Technology Support for Italian 454.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.2 Core Application Areas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    4.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    4.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    4.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    4.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    4.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    5 About META-NET 61

    A Riferimenti bibliografici -- References 63

    B Membri di META-NET -- META-NET Members 65

    C La Collana Libri Bianchi META-NET -- The META-NET White Paper Series 69

  • 7/23/2019 Lengua italiana

    8/77

    1

    SOMMARIO

    Nel corso degli ultimi 60 anni, lEuropa diventata una

    struttura politica ed economica distinta, che si carat-

    terizza per la ricchezza e la variet del suo patrimonio

    culturale e linguistico. Ci significa che dal portoghese

    al polacco e dallitaliano allislandese, la comunicazione

    quotidiana tra cittadinieuropei, cos come la comunica-

    zionenellasferadegliaffariedellapolitica,sonoinevita-bilmenteostacolatedabarrierelinguistiche.Leistituzio-

    nidellUEspendonocircaunmiliardodieurolannoper

    mantenere la loro politica di multilinguismo, che consi-

    ste nella traduzione di testi scritti e nellinterpretariato

    di comunicazioni orali. Secondo alcune stime, il merca-

    to europeo per la traduzione, linterpretariato, la loca-

    lizzazione delsoware e la globalizzazionedeisiti web si

    aggiraintornoa8.4miliardidieuroecisiaspettacheau-

    menti del 10% allanno. Ma si tratta di una spesa davve-ro necessaria? Nonostante questo impegno economico,

    i testi tradotti rappresentano solo una parte dellinfor-

    mazione a disposizione della popolazione in paesi dove

    cunasolalinguapredominante,comegliStatiUniti,la

    CinaoilGiappone.Lemodernetecnologiedellinguag-

    gio e la ricerca linguistica possono dare un contributo

    significativo per abbattere questi confini linguistici. Se

    combinate con dispositivi e applicazioni intelligenti, le

    tecnologie del linguaggio in futuro saranno in grado di

    aiutareicittadinieuropeiacomunicareefareaffarifacil-

    mente tra loro anche senon parlano una lingua comune.

    Leconomia italiana trae vantaggio dal mercato unico

    europeo ma le barriere linguistiche possono portare ad

    unalimitazionedegliscambi,soprattuttoperlePMIche

    non hanno i mezzi finanziari per invertire la situazione.

    Lunica (impensabile) alternativa a questo tipo di Euro-

    pa multilingue sarebbe quella di permettere a una singo-

    la lingua di acquisire una posizione dominante e finire

    per sostituire tutte le altre lingue.

    Le tecnologie del linguaggio costruiscono ponti

    per il futuro dellEuropa.

    Ilmodopinaturalepersuperarelebarrierelinguistiche

    sarebbe certamente quello di imparare le lingue stranie-

    re. Eppure, considerando la quantit delle lingue dEu-

    ropa circa ottanta, tra lingue ufficiali e non lappren-

    dimento delle lingue non basta da solo per le necessit

    della comunicazione, del commercio e del trasferimen-

    to dellinformazione tra tutti i confini linguistici. Senza

    il supporto della tecnologia, per esempio la traduzione

    automatica, la diversit linguistica dellEuropa rischia di

    rappresentare un ostacolo insormontabile per i cittadini

    europeieperleconomia,ildibattitopoliticoeilprogres-

    so scientifico.

    Le tecnologie del linguaggio hanno un ruolo chiave per

    fornire una soluzione sostenibile, economica e social-

    mente vantaggiosa al problema creato dalle barriere lin-

    guistiche.

    ueste tecnologie offriranno agli attori europei enormi

    vantaggi, non solo allinterno del mercato comune eu-

    ropeo, ma anche nelle relazioni commerciali con i pae-

    si terzi, in particolare le economie emergenti. Le solu-

    zioni proposte dalle tecnologie del linguaggio finiranno

    per rappresentare un unico ponte tra le lingue dEuropa.

    Perraggiungerequestoobiettivoepreservareladiversit

    1

  • 7/23/2019 Lengua italiana

    9/77

    culturaleelinguisticadellEuropa,primanecessarioef-

    fettuare unanalisi sistematica delle particolarit lingui-

    stichedituttelelingueeuropeeedellostatoattualedelle

    tecnologie linguistiche per ciascuna di esse.

    Gi alla fine degli anni Settanta lUE aveva compreso la

    grande importanza della tecnologia del linguaggio per

    guidare lunit europea, quando cominci a finanziare

    i primi progetti di ricerca (per esempio, EUROTRA).

    Dopo un lungo periodo in cui i finanziamenti venivano

    concessi in modo relativamente poco concertato, pochi

    anni fa la Commissione Europea ha istituito un diparti-

    mento dedicato alle tecnologie del linguaggio e alla tra-

    duzione automatica.

    Al momento lUnione Europea sostiene progetti come

    EuroMatrix e EuroMatrixPlus (dal 2006) e iTranslate4

    (dal 2010), che conducono ricerca di base e applicata e

    producono risorse per la creazione di tecnologie lingui-

    stiche di alta qualit per tutte le lingue europee. ue-

    sti sforzi hanno gi portato un certo numero di risulta-

    ti notevoli. I servizi di traduzione dellUnione Europea,

    per esempio, attualmenteutilizzano il soware di tradu-

    zione automatica open-source MOSES, che stato svi-

    luppatoprincipalmenteattraversoprogettidiricercaeu-

    ropei. Tuttavia, questi progetti non sono mai sfociati in

    uno sforzo coerente e coeso a livello europeo, che veda

    lUE e i suoi stati membri perseguire in modo sistemati-

    coloscopocomunedisosteneretecnologicamentetutte

    le lingue europee.

    Le tecnologie del linguaggiosono la chiave per il futuro.

    Invece di investire sui risultati dei suoi progetti di ricer-

    ca,lEuropahamantenutolatendenzaasvolgereattivit

    di ricerca isolate, con un impatto sul mercato meno per-

    vasivo. Di conseguenza, questa pur intensa attivit di fi-

    nanziamento non ha prodotto dei risultati sostenibili.

    Inmolticasi,laricercafattainEuropahaprodottorisul-

    tati considerevoli, ma fuori dai confini europei. I vinci-

    toridi questosviluppo generale sono Googlee Apple. In

    realt, molti dei soggetti principali nel settore oggi sono

    aziendeprivateascopodilucroconsedenelNordAme-

    rica.

    Lamaggiorpartedeisistemiditecnologiadellinguaggio

    sviluppati da queste aziende si basano su approcci stati-

    stici imprecisi, che non fanno uso di metodi linguistici

    pi sofisticati. Per esempio, le frasi vengono tradotte au-

    tomaticamente mettendo a confronto una nuova frase

    contro migliaia di frasi tradotte in precedenza da esse-

    ri umani. La qualit del risultato dipende in larga misu-

    ra dalla dimensione e dalla qualit del corpus campio-

    ne disponibile. Mentre la traduzione automatica di fra-

    si semplici in lingue con sufficienti quantit di materia-

    le testuale a disposizione pu raggiungere risultati uti-

    li, detti metodi statistici poco profondi sono destinati a

    fallirenelcasodilinguechedispongonodimoltomeno

    materialecampione,oppurenelcasodifrasiconstruttu-

    re complesse.Analizzare le proprietstrutturalipi pro-

    fonde delle lingue lunica strada percorribile se voglia-

    mo creare applicazioni che funzionino bene per tutte le

    lingue dEuropa.

    Le tecnologie linguisticheaiutano a unificare lEuropa.

    InEuropacisonocondizioniottimaliperlaricerca:gra-

    zieadiniziativecomeCLARIN,META-NETeFLaRe-

    Net, la comunit di ricerca ben coesa; in FLaReNet e

    META-NETsono state sviluppate delle agende di ricer-

    caalungotermine,eletecnologiedellinguaggiostanno

    rafforzando il loro ruolo presso la Commissione Euro-

    pea in modo lento ma costante.Tuttavia, da alcuni punti

    divista,lasituazioneeuropeapeggiorerispettoaquella

    di altre societ multilingui. A fronte di risorse finanzia-

    rie inferiori, paesi come lIndia, con 22 lingue ufficiali, e

    ilSudAfrica,con11lingueufficiali,hannorecentemen-

    2

  • 7/23/2019 Lengua italiana

    10/77

    te istituito programmi nazionali a lungo termine per la

    ricerca linguistica e lo sviluppo tecnologico.

    uello che manca in Europa sono la consapevolezza, la

    volont politica e il coraggio di lottare per una posizio-

    nedileaderinternazionaleinquestosettoretecnologico

    attraversounosforzoconcertatodifinanziamento.Sulla

    base dei risultati ottenuti finora, sembra che la tecnolo-

    gialinguisticadioggi,definitaibridainquantocombina

    i metodi statistici con unanalisi linguistica a livello pi

    profondo, riuscir a colmare il divario tra tutte le lingue

    europee.

    Come viene mostratoin questa collanadi Libri Bianchi,

    c una notevole differenza tra i diversi paesi membri re-

    lativamente allo stato di preparazione rispetto alle solu-

    zioni tecnologiche linguistiche e allo stato della ricerca.

    Litaliano, in quanto una delle grandi lingue dellUE, si

    trova in una situazione migliore sia per quanto riguar-

    dalamaturitdellaricercacheillivellodisviluppodelle

    tecnologie linguistiche. Tuttavia, litaliano necessita an-

    cora di ulteriori ricerche prima di poter avere soluzioni

    tecnologiche veramente efficaci pronte per luso quoti-

    diano.

    La percentuale di utenti Internet che parlano italiano

    subir una diminuzione nel prossimo futuro e litalia-

    no potrebbe andare incontro al problema di essere sotto

    rappresentato nel Web, specialmente se paragonato al-

    linglese. qui che le tecnologie del linguaggio possono

    svolgere un ruolo fondamentale per vincere le sfide che

    aspettano la lingua italiana nellera digitale. La presenza

    digitale di una lingua in applicazioni e servizi basati su

    Internet ormai un elemento cruciale per mantenere la

    vitalit culturale di quella lingua. E, daltra parte, appli-

    cazioni e servizi su Internet sono sostenibili solo in pre-

    senza di adeguate infrastrutture e tecnologie. La ricer-

    ca nel campo delle tecnologie del linguaggio condotta

    in Italia in oltre 15 laboratori (secondo quanto riporta-

    to dallo studio EUROMAP) e la presenza italiana nella

    comunit di ricerca internazionale attiva e rilevante.

    A partire dal 1997 stato fatto uno sforzo considerevo-

    le in Italia nella ricerca sulle tecnologie del linguaggio,

    quando per questo settore stata designata una politica

    di ricerca nazionale. Sfortunatamente, i fiananziamenti

    a livello nazionale sono molto limitati, e lo stato attuale

    delle tecnologie del linguaggionon sufficiente a garan-

    tire allitaliano una dimensione digitale proporzionata

    alla richiesta delle applicazioni e dei servizi dellInternet

    del futuro. Per i prossimi decenni la comunit italiana

    deve fare uno sforzo sostanziale per creare risorse e stru-

    menti linguistici per litaliano in grado di trainare la ri-

    cerca, linnovazione e lo sviluppo in generale. In questo

    volume verr presentata una introduzione alle tecnolo-

    gie linguistiche e alle relative prinicipali aree di applica-

    zione, corredata da una valutazione dello stato attuale

    delle tecnologie linguistiche disponibili per litaliano.

    uesta collana di Libri Bianchi integra le altre azio-

    ni strategiche intraprese da META-NET (si veda lap-

    pendice per una panoramica). Informazioni aggiorna-

    te, come per esempio la versione attuale del vision pa-

    per di META-NET [2] o lAgenda di Ricerca Strategi-

    ca (SRA) sono disponibili sul sito web di META-NET:

    http://www.meta-net.eu.

    3

    http://www.meta-net.eu/
  • 7/23/2019 Lengua italiana

    11/77

    2

    LE NOSTRE LINGUE A RISCHIO:UNA SFIDA PER LE TECNOLOGIE DELLINGUAGGIO

    Siamotestimonidiunarivoluzionedigitalechestaaven-

    dounimpattoradicalesullacomunicazioneesullasocie-

    t. I recenti sviluppi nella tecnologia dellinformazione

    digitale e della comunicazionevengono talvolta parago-nati allinvenzione della stampa da parte di Gutenberg.

    Macosapudirciquestaanalogiasulfuturodellasociet

    dellinformazione europea e, in particolare, delle nostre

    lingue?

    La rivoluzione digitale paragonabileallinvenzione della stampa da parte di

    Gutenberg.

    In seguito allinvenzione di Gutenberg, furono compiu-

    ti grandi progressi nella comunicazione e nello scambio

    di conoscenza attraverso opere quali la traduzione della

    BibbiainunalinguavolgaredapartediLutero.Nelcor-

    sodeisecoli successivi, sono statesviluppatetecniche per

    gestiremeglio lelaborazione del linguaggio e lo scambio

    di conoscenza:

    lastandardizzazioneortograficaegrammaticaledelle

    lingue principali ha oermesso di disseminare nuove

    idee scientifiche e intellettuali in modo rapido;

    lo sviluppo delle lingue ufficiali ha reso possibile ai

    cittadini la comunicazione allinterno di determina-

    ti confini (spesso politici);

    linsegnamento delle lingue e la traduzione ha reso

    possibili gli scambi tra persone che parlavano lingue

    diverse;

    la creazione di linee guida editoriali e bibliografiche

    ha assicurato la qualit e la disponibilit di materiale

    stampato;

    lacreazionedidiversimezzidicomunicazione,come

    i giornali, la radio, la televisione e i libri, ha permes-

    so di soddisfare bisogni di comunicazione di natura

    diversa.

    Negli ultimi ventanni, la tecnologia dellinformazione

    ha aiutato ad automatizzare e facilitare molti processi:

    i soware per ildesktop publishinghanno sostituito

    la dattilografia e la composizione tipografica;

    PowerPoint di Microso ha sostituito i lucidi;

    con la posta elettronica si spediscono e si ricevono

    documenti pi velocemente che utilizzando un fax;

    Skypeoffrelapossibilitdifarechiamatetelefoniche

    su Internet in modo economico e permette di orga-nizzare incontri virtuali;

    grazie a formati di codifica audio e video possibile

    scambiarsi in maniera semplice contenuti multime-

    diali;

    i motori di ricerca forniscono un accesso alle pagine

    web basato su parole chiave;

    4

  • 7/23/2019 Lengua italiana

    12/77

    servizi online come Google Translate producono ve-

    loci traduzioni approssimate;

    lepiattaformedisocialmediacomeFacebook,Twit-

    ter, e Google+ facilitano la comunicazione, la colla-

    borazione e la condivisione dellinformazione.

    Sebbene queste applicazioni e questi strumenti siano

    utili, essi non sono ancora in grado di supportare pie-

    namente una societ europea multilingue in cui linfor-

    mazione e le merci possano circolare liberamente.

    2.1I CONFINI LINGUISTICI

    FRENANO LA SOCIETEUROPEA DELLINFORMAZIONENon siamo in grado di prevedere esattamente come sar

    la societ dellinformazione del futuro. Tuttavia, esiste

    unelevata probabilit che la rivoluzione nelle tecnolo-

    gie della comunicazione avviciner persone che parlano

    lingue diverse in nuovi modi. uesta tendenza induce

    gli individui a imparare nuove lingue e gli sviluppatori,

    in particolare, a creare nuove applicazioni tecnologiche

    per assicurare la comprensione reciproca e laccesso allaconoscenza condivisa.

    Inunospazioeconomicoediinformazioneglobale,una

    maggiore quantit di lingue, di parlanti e di contenuti

    interagiscono pi velocemente con nuovi tipi di mez-

    zi di comunicazione. Lattuale popolarit dei social me-

    dia (Wikipedia, Facebook, Twitter, YouTube e, recente-

    mente, Google+) rappresenta soltanto la punta dellice-

    berg.

    Leconomia e lo spazio dinformazioneglobali ci mettono di fronte a lingue,

    parlanti e contenuti diversi.

    Oggi possiamo trasmettere gigabyte di testo in tutto il

    mondo in pochi secondi prima di accorgerci che si trat-

    tadiunalinguachenoncomprendiamo.Secondounre-

    cente rapporto della Commissione Europea, il 57% de-

    gli utenti di Internet in Europa acquista merci e servizi

    inlinguediversedallalorolinguanativa;lingleselalin-

    gua straniera pi comune, seguito dal francese, dal tede-

    sco e dallo spagnolo. Il 55% degli utenti legge contenuti

    in una lingua straniera mentre il 35% usa unaltra lingua

    per scrivere e-mail o per spedire commenti sul Web [3].

    Alcuni anni fa, linglese poteva essere considerato la lin-

    gua franca del Web la grande maggioranza dei con-

    tenuti sul Web era in inglese ma la situazione ora

    cambiata sensibilmente.La quantit di contenuti online

    in altre lingue europee (cos come per quelle asiatiche e

    medio-orientali) si moltiplicata.

    Sorprendentemente, questo onnipresente divario digi-

    tale dovuto ai confini linguistici non ha ricevuto mol-

    ta attenzione pubblica; eppure, esso solleva una doman-

    da molto pressante: quali lingue europee prospereranno

    nella societ dellinformazione e della conoscenza in re-

    te, e quali sono destinate a scomparire?

    2.2LE NOSTRE LINGUE A

    RISCHIOSe da un lato linvenzione della stampa contribu certa-

    menteadintensificareloscambiodiinformazioniinEu-

    ropa,essaalcontempoportancheallestinzionedimol-

    te lingue europee. Le lingue regionali e minoritarie ve-

    nivano stampate raramente e lingue come il cornico e il

    dalmatico vennero ridotte a forme di trasmissione orale,

    il che a sua volta restrinse gli ambiti duso di queste lin-

    gue. Internet avr lo stesso impatto sulle nostre lingue?

    Lampia variet di lingue esistentiin Europa rappresenta una delle

    sue ricchezze pi importanti.

    5

  • 7/23/2019 Lengua italiana

    13/77

    Le circa 80 lingue dellEuropa costituiscono unodei pi

    ricchi e pi importanti patrimoni culturali dellEuropa,

    e una parte vitaledelsuomodellosociale unico [4].Men-

    tre lingue come linglese e lo spagnolo probabilmente

    sopravviveranno nel mercato digitale emergente, molte

    altre lingue Europee potrebbero diventare irrilevanti al-

    linternodiunasocietinrete.uestoporterebbeadun

    indebolimento dello stato globale dellEuropa e andreb-

    be contro lobiettivo strategico di assicurare unuguale

    partecipazione a tutti i cittadini europei indipendente-

    mente dalla lingua.

    Secondo un rapporto dellUNESCO sul multilingui-

    smo, le lingue rappresentano un mezzo essenziale per

    poter godere di diritti fondamentali come il diritto di

    espressione politica, il diritto alleducazione e alla parte-

    cipazione nella societ [5].

    2.3LA TECNOLOGIA DELLINGUAGGIO UNA

    TECNOLOGIA FONDAMENTALEIn passato, gli sforzi di investimento nellambito della

    conservazione delle lingue si sono focalizzati sullinse-

    gnamento delle lingue e sulla traduzione. Secondo una

    stima, il mercato europeo per la traduzione, linterpre-

    tariato, la localizzazione di soware e di siti web stato

    di 8,4 miliardi di euro nel 2008 e per il futuro attesa

    unacrescitadel10%allanno[6].Eppurequestacifraco-

    pre solo una piccola parte dei bisogni attuali e futuri per

    quanto riguarda la comunicazione tra lingue diverse. La

    soluzione pi convincente per assicurare in futuro am-

    piezza e profondit nelluso delle lingue in Europa con-

    siste nelluso di una tecnologia appropriata, allo stesso

    modo in cui usiamo la tecnologia per risolvere le nostre

    esigenze di trasporto e di energia.

    Le tecnologie linguistiche (rivolte a tutte le forme di te-

    sti scritti e discorsi orali) aiutano le persone a collabo-

    rare, a fare affari, a condividere la conoscenza e a parte-

    cipare al dibattito sociale e politico a prescindere dalle

    barriere linguistiche e dallabilit nelluso del computer.

    Spesso operano in maniera invisibile allinterno di siste-

    mi informatici complessi, per aiutarci a:

    trovare informazioni mediante un motore di ricerca

    su Internet;

    controllareerroridi ortografiae di grammatica allin-

    terno di un programma per lelaborazione di testi;

    vedere,inunnegozioonline,leopinionisuiprodotti

    espresse da altri clienti;

    seguire, in automobile, le istruzioni vocali di un si-

    stema di navigazione;

    tradurre pagine web attraverso un servizio in rete.

    La tecnologia del linguaggio consiste in un certo nume-

    ro di applicazioni di base che rendono possibili processi

    allinterno di un pi ampio quadro applicativo. I Libri

    Bianchi di META-NETsi prefiggono lobiettivodi veri-

    ficare che livello abbiano raggiuntoqueste tecnologie di

    base per ciascuna lingua europea.

    LEuropa ha bisogno di tecnologie linguisticherobuste ed economicamente accessibili per tutte

    le lingue europee.

    Al fine di mantenere la propria posizione in prima li-

    nea nellinnovazione globale lEuropa avr bisogno, per

    tutte le lingue europee, di tecnologie linguistiche robu-

    ste, economicamente accessibili e saldamente integrate

    allinterno degli ambienti soware principali. Senza le

    tecnologie del linguaggio, non saremo in grado di rag-

    giungere in un prossimo futuro unesperienza utente in-

    terattiva, multimedialee multilingue realmente efficace.

    6

  • 7/23/2019 Lengua italiana

    14/77

    2.4LE OPPORTUNIT PER LE

    TECNOLOGIE LINGUISTICHE

    La rivoluzione tecnologica nel mondo della carta stam-

    pata fu la possibilit di duplicare rapidamente unim-magine di un testo usando una macchina da stampa suf-

    ficientemente potente. Il duro lavoro di ricerca, lettura,

    traduzione e sintesi della conoscenza era appannaggio

    degli uomini. Per registrare la lingua parlata si dovu-

    to aspettare fino ad Edison e di nuovo la sua tecnolo-

    gia produceva semplicementedelle copie analogiche. Le

    tecnologie linguistiche possono ora semplificare e auto-

    matizzare i processi stessi di traduzione, produzione di

    contenuto e gestione della conoscenza per tutte le lin-gue europee. Possono anche arricchire interfacce intui-

    tive a base vocale per elettrodomestici, macchinari, vei-

    coli, computer e robot. Delle applicazioni commerciali

    ed industriali reali sono ancora agli stadi iniziali di svi-

    luppo, ma i progressi di R&S stanno creando una vera

    finestra di opportunit. Per esempio, la traduzione auto-

    matica gi ragionevolmente accurata in settori specifi-

    ci,edalcuneapplicazionisperimentaliconsentonolage-

    stione multilingue dellinformazione e della conoscenzae la produzione di contenuto in molte lingue europee.

    Comeaccadeperlamaggioranzadelletecnologie,lepri-

    me applicazioni linguistiche come le interfacce basate

    sulla voce e i sistemi di dialogo erano sviluppate per set-

    tori altamente specialistici, e spesso avevano prestazioni

    limitate. Ma lintegrazione delle tecnologie linguistiche

    neigiochi,neisitilegatialpatrimonioculturale,neipac-

    chetti diedutainment, nelle biblioteche, negli ambienti

    di simulazione e nei programmi di training offre oppor-

    tunit di mercato enormi nellindustria delleducazione

    e dellintrattenimento. I servizi mobili di informazio-

    ne, il soware per lapprendimento delle lingue assisti-

    to da computer, gli ambienti di eLearning, gli strumenti

    di auto-valutazione e il soware di rilevamento del pla-

    gio sono solo alcune delle aree applicative in cui le tec-

    nologie linguistiche possono avereunruolo importante.

    Lapopolaritdelleapplicazioni socialmedia comeTwit-

    tereFacebooksuggerisconounulteriorebisognoditec-

    nologie linguistiche sofisticate che consentano di mo-

    nitorare i messaggi, sintetizzare le discussioni, suggeri-

    re andamenti di opinione, individuare risposte emotive,

    identificareviolazioni di copyright o rintracciareusi im-

    propri. Le tecnologie linguistiche rappresentano unop-

    portunit straordinaria per lUnione Europea, in quan-

    to possono aiutare ad affrontare il complesso problema

    delmultilinguismo in Europa il fatto che lingue diver-

    se coesistono naturalmente nel mondo degli affari, delle

    amministrazioni e delle scuole. I cittadini, tuttavia, han-

    no bisogno di comunicare al di l di questi confini lin-

    guistici che attraversano il Mercato Comune Europeo,

    e le tecnologie linguistiche possono aiutare a superare

    questultima barriera pur continuando a supportare lu-

    so libero e aperto delle singole lingue.

    Le tecnologie linguistiche aiutano a superarequella forma di disabilit rappresentata dalla

    diversit linguistica.

    Guardando ancora pi avanti, le tecnologie linguistiche

    multilingui innovative rappresenteranno un punto di ri-

    ferimento per i nostri partner globali quando le comu-

    nit multilingui cominceranno a dotarsene. Le tecnolo-

    gie linguistiche possono essere viste come una tecnolo-

    gia assistiva che aiuta a superare quella forma di disabi-

    lit rappresentata dalla diversit linguistica, rendendo le

    comunit linguistiche ancora pi accessibili le une ver-

    so le altre. Infine, un campo di ricerca attivo luso del-

    le tecnologie linguistiche per operazioni di soccorso in

    aree colpite da emergenze, dove le prestazioni possono

    essere una questione di vita o di morte: i robot intelli-

    genti del futuro con capacit trans-linguistiche hanno il

    potenziale di salvare vite umane.

    7

  • 7/23/2019 Lengua italiana

    15/77

    2.5LE SFIDE DELLE

    TECNOLOGIE LINGUISTICHENonostante i considerevoli passi avanti compiuti dal-

    le tecnologie linguistiche negli ultimi anni, il ritmo del

    progresso tecnologico e dellinnovazione produttiva

    troppo lento. Tecnologie ampiamente usate come i cor-

    rettori ortografici e grammaticali degli editori di testo

    sono in genere monolingui, e sono disponibili per po-

    che lingue. I servizi di traduzione automatica on-line,

    sebbene utili per generare rapidamente una ragionevole

    approssimazione del contenuto di un documento, sono

    irti di difficolt quando siano richieste delle traduzioni

    completeemoltoaccurate.Acausadellacomplessitdel

    linguaggioumano,modellarelenostrelinguepermezzo

    di un soware che sia poi testato in applicazioni reali

    un processo troppo lungo e costoso che richiede un im-

    pegno finanziariocostante.LEuropa, quindi, deve man-

    tenere il suo ruolo pionieristico nellaffrontare le sfide

    tecnologiche di una comunit multilingue, inventando

    nuovimetodi tantoil progressocomputazionale quan-

    totecnichecomeilcrowdsourcing per accelerare lo svi-

    luppo a tutto campo.

    Il ritmo del progresso tecnologicodeve essere accelerato.

    2.6LACQUISIZIONE DEL

    LINGUAGGIO NEGLI UMANI ENELLE MACCHINEPer illustrare il modo in cui i computer gestiscono il lin-

    guaggio e il perch sia difficile programmarli ad usarlo,

    diamoun rapidosguardoal modoin cuigli umani acqui-

    sisconolelingue,evediamopoicomelavoranoletecno-

    logie linguistiche.

    Gli esseri umani acquisiscono le competenze linguisti-

    cheinduemodidiversi.Ibambiniacquisisconounalin-

    gua ascoltando delle interazioni reali che avvengono tra

    genitori, fratelli o membri della famiglia. A partire da

    circa due anni, i bambini producono le loro prime pa-

    role e delle brevi frasi. uesto possibile solo perch gli

    esseriumanihanno una predisposizionegeneticaad imi-

    tare e poi razionalizzare i suoni che sentono.

    Lapprendimento di una seconda lingua ad unet mag-

    giore richiede pi sforzo, in gran parte perch il bambi-

    no non immerso in una comunit linguistica di par-

    lanti nativi. A scuola, le lingue straniere di solito sono

    acquisitestudiandolastrutturagrammaticale,ilvocabo-

    lario e lortografia con esercizi che descrivono la cono-

    scenza linguistica in termini di regole astratte, tabelle ed

    esempi.

    Gli esseri umani acquisiscono il linguaggioin due modi diversi: apprendendo dagli

    esempi e apprendendo le regolelinguistiche che li governano.

    I due tipi principali di sistemi di tecnologie linguistiche

    acquisiscono delle capacit linguistiche in modo

    simile. Gli approcci statistici (o datadriven)rica-

    vano la conoscenza linguistica da vaste raccolte di esem-

    pi testuali concreti. Mentre sufficiente usare del testo

    in una sola lingua per addestrare un correttore ortogra-

    fico, per addestrare un sistema di traduzione automatica

    sono necessari dei testi paralleli in due (o pi) lingue.

    Lalgoritmo dimachine learningpoi impara dei mo-

    delli di come sono tradotte le parole, i gruppi di parole

    e le frasi complete.

    uesto approccio statistico pu richiedere milioni di

    frasielaqualitdelleprestazioniaumentaconlaquanti-

    t di testo analizzato. uesto uno dei motivi per cui

    i fornitori di motori di ricerca vogliono raccogliere il

    maggior numero possibile di materiale scritto. La cor-

    rezione ortografica negli editori di testo, e servizi come

    8

  • 7/23/2019 Lengua italiana

    16/77

    Google Search e Google Translate si basano tutti su ap-

    procci statistici. Il grande vantaggio della statistica che

    la macchina impara velocemente in serie continue di ci-

    cli di apprendimento, anche se la qualit pu variare ar-

    bitrariamente.

    Il secondo approccio alle tecnologie linguistiche e al-

    la traduzione automatica in particolare quello di co-

    struiresistemibasatisuregole.Espertidilinguistica,lin-

    guistica computazionale e informatica devono prima di

    tutto codificare delle analisi grammaticali (regole di tra-

    duzione) e compilare liste di vocaboli (lessici). uesto

    lavoro molto lungo e laborioso. Alcuni dei sistemi lea-

    der di traduzione automatica basati su regole sono stati

    in costante sviluppo da pi di venti anni. Il grande van-taggiodeisistemibasatisuregolechegliespertihanno

    un controllo pi dettagliato sulla elaborazione del lin-

    guaggio. In questo modo possibile correggere sistema-

    ticamente gli errori nel soware e fornire allutente un

    feedback dettagliato, soprattutto quando i sistemi basa-

    ti su regole vengono utilizzati per lapprendimento delle

    lingue. Ma a causa del costo elevato di questo lavoro, le

    tecnologielinguistichebasatesuregolefinorasonostate

    sviluppate solo per le lingue principali.

    Dal momento che i punti di forza e di debolezza dei si-

    stemi statistici e di quelli basati su regole tendono ad es-

    sere complementari, la ricerca attuale si concentra sugli

    approcciibridichecombinanoleduemetodologie.Tut-

    tavia, questi approcci finora hanno avuto pi successo

    nei laboratori di ricerca che in applicazioni industriali.

    I due tipi principali dei sistemidi tecnologie linguistiche acquisiscono

    il linguaggio in modo simile.

    Come abbiamo visto in questo capitolo, molte applica-

    zioni ampiamente usate nella societ dellinformazione

    dioggisibasanomoltosullatecnologialinguistica.Gra-zie alla sua comunit multilingue, questo vero in par-

    ticolar modo per lo spazio economico e di informazio-

    ne europeo. Sebbene le tecnologie linguistiche abbiano

    fatto progressi notevoli negli ultimi anni, c ancora uno

    spazio di miglioramento enorme per la qualit dei siste-

    mi di tecnologie linguistiche. Nei prossimi capitoli de-

    scriveremo il ruolo della lingua italiana nella societ del-

    linformazioneeuropeae valuteremo lo stato attuale del-

    le tecnologie linguistiche per la lingua italiana.

    9

  • 7/23/2019 Lengua italiana

    17/77

    3

    LA LINGUA ITALIANA NELLA SOCIETEUROPEA DELLINFORMAZIONE

    3.1ASPETTI GENERALILalinguaitalianacontacirca62milionidiparlantinati-

    vi, il che la colloca tra le 20 lingue pi parlate al mondo.

    125 milioni di persone la usano come seconda lingua.

    Diversecomunitdiex-emigranti,ciascunacostituitada

    pi di 500.000 persone che ancora parlano italiano, si

    trovano in Argentina, Brasile, Canada e Stati Uniti. Se-

    condounindaginerealizzatanel2006,conisuoi56mi-

    lioni di parlanti nativi residenti in Italia litaliano la se-

    conda lingua nellUnione Europea per numero di par-

    lanti, dopo il tedesco e alla pari con linglese.

    Nellambito di vari studi condotti in anni diversi, stato

    stimato che altri 280.000 parlanti di italiano come pri-

    ma lingua risiedano in Belgio, 70.000 in Croazia (pae-

    se candidato a entrare a far parte dellUnione Europea),

    1.000.000 in Francia, 548.000 in Germania, 20.800 nel

    Lussemburgo, 27.000 a Malta (esclusi 118.000 parlan-

    ti di italiano come seconda lingua), 2.560 in Romania,

    4.010 in Slovenia, 200.000 nel Regno Unito e 471.000

    in Svizzera.

    La lingua italiana conta circa 62 milioni diparlanti nativi.

    Litaliano si trovaal sesto posto nellUnione Europea tra

    le lingue pi parlate come lingua straniera dopo lingle-

    se,ilfrancese,iltedesco,lospagnoloeilrusso.Perquan-

    to concerne il numero di traduzioni a livello mondiale,

    litaliano si trova al quinto posto come lingua di parten-

    za e allundicesimo come lingua di arrivo.

    NellUnione Europea litaliano parlato come seconda

    lingua dal 3% della popolazione, cio 14 milioni di per-

    sone; da uno studio effettuato nel 2005 emerso che il61% dei maltesi, il 14% dei croati, il 12% degli sloveni,

    l11%degliaustriaci,l8%deiromenieil6%deifrancesi

    edeigreciincludonolitalianotraleduelinguestraniere

    che i bambini dovrebbero imparare. Litaliano la lin-

    gua ufficiale della Repubblica Italiana (formalmente ci

    apparsonellaCostituzionesoltantoapartiredal2007)

    edellaRepubblicadiSanMarino.InSvizzeralitaliano

    una delle quattro lingue ufficiali, ed parlato soprattut-

    to nel Canton Grigioni e nel Canton Ticino. A Cittdel Vaticano una delle lingue ufficiali (tutte le leggi e i

    regolamenti dello stato sono pubblicati in italiano).

    Litaliano una lingua ufficiale regionale in Slovenia

    (larticolo 64 della Costituzione slovena concede allI-

    stria, regione di lingua italiana, unampia libert per

    quanto riguarda luso dellitaliano in aree quali listru-

    zione, la cultura, la scienza, leconomia e i mass media)

    e in Croazia.

    SebbeneinItalialitalianosialalinguadigranlungapi

    parlata, e quasi tutti i media (per esempio, la televisio-

    ne, i giornali, i film, eccetera) siano prodotti in italiano,

    altre lingue sono co-ufficiali allinterno di alcune regio-

    ni: il francese in Val dAosta, il tedesco in Trentino-Alto

    Adige e il sardo in Sardegna.

    10

  • 7/23/2019 Lengua italiana

    18/77

    3.2PARTICOLARIT DELLA

    LINGUA ITALIANALa lingua italiana deriva dal latino ed la lingua nazio-

    nale ad esso pi vicina. A differenza della maggior par-

    te delle altre lingue romanze, la lingua italiana mantie-

    ne il contrasto tra consonanti lunghe e consonanti brevi

    che era presente in latino. Come nella maggior pare del-

    le lingue romanze, laccento ha una funzione distintiva.

    In particolare la lingua italiana la pi vicina al latino

    tra le lingue romanze per quanto riguarda il lessico [7].

    La grammatica italiana quella tipica delle lingue ro-

    manze in generale. I casi esistono per i pronomi (no-

    minativo, accusativo e dativo), ma non per i sostantivi.

    Ci sono due generi grammaticali (maschile e femmini-

    le).Isostantivi,gliaggettiviegliarticolicambianolade-

    sinenza in rapporto al genere e al numero (singolare e

    plurale). Gli aggettivi a volte si trovano prima del nome

    a cui si riferiscono e a volte dopo. I sostantivi che svol-

    gono la funzione di soggetto di solito sono posizionati

    prima del verbo. I pronomi personali soggetto di solito

    vengono omessi in quanto la loro presenza resa super-

    flua dalle desinenze verbali. I sostantivi con funzione di

    complementooggettoseguonoilverbo.Ipronomicom-

    plemento oggetto in genere precedono il verbo, ma lo

    seguono nel caso di verbi allimperativo e allinfinito. Ci

    sono numerosi casi di contrazioni di preposizioni e arti-

    coli (preposizioni articolate). Esistono infine numerosi

    suffissi moltoproduttivi per il diminutivo, laccrescitivo,

    ilpeggiorativoeilvezzeggiativo,chepossonoanchedare

    origine a dei neologismi.

    Molti parlanti nativi dellitaliano in realt sonoparlanti nativi bilingui, parlano cio come lingua

    nativa sia litaliano sia il loro dialetto.

    Una caratteristica peculiare dellitaliano che molti

    parlanti nativi residenti in Italia in realt sono par-

    lanti nativi bilingui, parlano cio come lingua nativa

    sia litaliano sia il loro dialetto. Alcuni dei dialetti ita-

    liani pi parlati sono il lombardo (8.830.000 parlanti

    nel 2000), il napoletano-calabrese (7.050.000 parlanti

    nel 1976), il siciliano (4.830.000 parlanti nel 2000), il

    piemontese (3.110.000 parlanti nel 2000), il venezia-

    no (2.180.000 parlantinel 2000), lemiliano-romagnolo

    (2.000.000 parlanti nel 2003), il ligure (1.920.000 par-

    lanti nel 2000). Alcuni dialetti italiani sono sufficiente-

    mente distanti dallitaliano da essere considerati lingue

    separate. I dialetti hanno svolto un ruolo significativo

    nello sviluppo delle molteplici variet regionali esisten-

    ti per litaliano e tale influenza risulta particolarmente

    evidente nella prosodia, nella fonetica e nel lessico del-

    litaliano parlato da dialettofoni.

    3.3SVILUPPI RECENTINeglianni 50, le serie televisive e i film americani inizia-

    rono a dominare il mercato italiano. Sebbene di solito le

    serie e i film stranieri siano doppiati in italiano, la for-

    te presenza del modo di vivere americano nei media ha

    influenzato la cultura e la lingua italiana. In seguito al

    trionfo della musica inglese e americana a partire dagli

    anni 60, gli adolescenti italiani hanno subito una forte

    esposizione allinglese per generazioni. Linglese ha ben

    presto acquisito lo stato di lingua in o di moda, status

    che mantiene anche ai giorni nostri.

    Il mantenimento di questo status da parte della lingua

    inglese si riflette nel numero dei prestitidallinglese (an-

    glicismi) presenti attualmente nella lingua. Uno studio

    recente[8]miraaquantificarelimpattodeglianglicismi

    non adattati sulla base di conteggi relativi alla frequen-

    za duso. uesto studio si basa su una lista di esempi di

    anglicisminonadattatiraccoltidauncorpusitalianoco-

    stituito da articoli di quotidiani. Lanalisi mostra come,

    sebbene il numero di anglicismi nei dizionari italiani sia

    considerevole,laloropresenzaallinternodeiquotidiani

    un genere che i linguisti tradizionalmente considera-

    no incline allinclusione di prestiti in generale e di an-

    11

  • 7/23/2019 Lengua italiana

    19/77

    glicismi nello specifico raggiunge percentuali molto

    pi basse. Lautore sostiene che le strategie di marketing

    spingono gli editori e i curatori a massimizzare il nume-

    ro di lemmi nei dizionari includendo molti prestiti e, in

    particolare, molti anglicismi; sarebbero invece da pren-

    dereinconsiderazioneiconteggirelativiallafrequenzae

    basatisucorpora,inquantocapacidiattestarelusoreale

    di una parola. Lautore suggerisce che dovrebbero essere

    introdottedellesogliedifrequenzaperdeterminarelin-

    clusione degli anglicismi nei dizionari monolingui e nei

    dizionari settoriali, sia per litaliano che per altre lingue,

    e in questo la linguistica basata su corpora pu offrire

    il suo contributo fornendo dati approssimati sulla fre-

    quenza duso delle parole.

    3.4INIZIATIVE PER LAPROMOZIONE DELLA LINGUA

    ITALIANAUno dei principali punti di riferimento per le ricerche

    sullalinguaitaliana,ancherispettoallesuevarietregio-

    nali, lAccademia della Crusca [9], che fu fondata a

    Firenze nella seconda met del XVI secolo. Il principale

    risultato ottenuto dallAccademia fu il Vocabolario de-

    gliAccademicidellaCrusca(1612),ilprimodizionario

    della lingua italiana. Attualmente, lattivit dellAccade-

    mia mira a sostenere lattivit scientifica e la formazione

    di nuovi ricercatori nel campo della linguistica e della

    filologia italiana e a collaborare con le omologhe istitu-

    zioniestereeconleistituzionigovernativeitalianeedel-

    lUnioneEuropeaperlapoliticadellEuropaafavoredel

    plurilinguismo.

    LAccademia della Crusca uno deiprincipali punti di riferimento per le ricerche

    sulla lingua italiana.

    Infine, lAccademia punta ad acquisire e diffondere non

    solo la conoscenza storica ma anche la coscienza critica

    dellevoluzione dellitaliano nellera della societ dellin-

    formazione.

    In parte come reazione alla crescente importanza de-gli anglicismi nella lingua italiana, nel 2001 stata pre-

    sentata uniniziativa parlamentare che punta alla crea-

    zione di un Consiglio Superiore della Lingua Italiana

    (CSLI), allo scopo di contrastare limpoverimento della

    lingua italiana e la sua perdita di prestigio a livello euro-

    peo e internazionale (tale proposta non ha avuto ancora

    lapprovazione del Parlamento). Gli obiettivi del CLSI

    includerebbero, tra gli altri, la difesa, la valorizzazione

    e la diffusione della cultura italiana, in particolar modoattraverso iniziative mirate alla promozione di un uso

    corretto della lingua italiana nelle scuole, nei mezzi di

    comunicazione e negli scambi economici. Un obiettivo

    aggiuntivo sarebbe costituito dalla diffusione della lin-

    gua italiana allestero, cos come il suo uso ufficiale nelle

    istituzioni europee.

    3.5LA LINGUA NEL SETTOREDELLA FORMAZIONELe capacit linguistiche costituiscono una competenza

    fondamentale richiesta nella formazione scolastica e an-

    che per la comunicazione personale e professionale. Lo

    status della lingua italiana come materia scolastica nella

    scuola di base sembra riflettere la necessit di dare prio-

    rit a questo aspetto. Il primo studio PISA, condotto

    nel 2000, ha rivelato come gli studenti italiani ottenga-

    no risultati inferiori alla media OECD per quanto con-

    cerne le loro capacit nella lettura. Gli studenti con un

    background di migrazione ottengono risultati partico-

    larmente bassi. Il dibattito che ne derivato ha avuto

    leffetto di aumentare nellopinione pubblica la consape-

    volezza dellimportanza dellapprendimento linguistico,

    specialmentenelcontestodellintegrazionesociale.Nel-

    12

  • 7/23/2019 Lengua italiana

    20/77

    lultimo studio PISA (2009), gli studenti italiani hanno

    ottenuto risultati simili a quelli ottenuti nel 2000, il che

    pu essere valutato positivamente dal momento che la

    media OECD nello stesso periodo si invece abbassata

    [10].

    3.6LITALIANO SU INTERNETSistimachelapenetrazionediInternetinItaliasiattesti

    al 51,7%, con 30 milioni di utenti su una popolazione

    totale di 58 milioni; gli utenti di Internet in Italia sono

    cresciuti del 127,5% tra il 2000 e il 2010 e rappresenta-

    no circa il 6,3% degli utenti di Internet nellUnione Eu-

    ropea. La percentuale di pagine web in italiano a livel-lo mondiale raddoppiata passando dall1,5% nel 1998

    al 3,05% nel 2005. stato stimato che nel 2004 in tut-

    to il mondo ci fossero 30,4 milioni di parlanti italiani

    online. Al di fuori dei confini dellUnione Europea, le

    stime parlano di 520.000 americani, 200.000 svizzeri e

    100.000 australiani che accedono a Internet in italiano.

    Il numero di utenti di Internet italiani negli ultimi cin-

    que anni rimasto relativamente stabile, mentre il nu-

    mero di nuovi utenti nei paesi in via di sviluppo au-mentatonotevolmente.Laconseguenzachelapropor-

    zione di utenti Internet che parlano italiano subir una

    diminuzione nel prossimo futuro e litaliano potrebbe

    andare incontro al problema di essere sotto rappresen-

    tato nel Web, specialmente se paragonato allinglese.

    qui che le tecnologie del linguaggio possono svolgere un

    ruolo fondamentale per vincere le sfide che aspettano la

    lingua italiana nellera digitale.

    Luso massiccio di sistemi interattivi nellInternetdel Futuro richiede tecnologie del linguaggiocon un alto livello di adattabilit a parlanti

    di diverse variet di italiano.

    Luso massiccio di sistemi interattivi nellInternet del

    Futurorichiedetecnologiedellinguaggioconunaltoli-

    vello di adattabilit a parlanti di diverse variet di italia-

    no. Ci si ripercuote in primo luogo sulle tecnologie per

    la trascrizione automatica di dati audio, dal momento

    che gli accenti regionali variano significativamente, ma

    nesonointeressateanchetuttelealtretecnologiedellin-

    guaggio, in quanto le variet regionali sono caratterizza-

    te da differenze a tutti i livelli linguistici, dal lessico alla

    sintassi. La disponibilit di sistemi in grado di suppor-

    tare le variet regionali dellitaliano permetterebbe non

    solo un miglioramento in termini di prestazioni, ma an-

    che uninterazione pi naturale tra umani e computer.

    Lapplicazione web pi comunemente usata certamen-

    te la ricerca di contenuti, la quale richiede lelaborazione

    automatica del linguaggio a vari livelli, come vedremo

    pi in dettaglio nella seconda parte di questo articolo.

    Essa richiede tecnologie linguistiche sofisticate che dif-

    feriscono da lingua a lingua (in italiano, ad esempio,

    necessario far corrispondere citt e citta). anche

    possibile, tuttavia, che gli utenti di Internet e coloro che

    pubblicano contenuti sul Web sfruttino le tecnologie

    linguisticheinunmodomenoesplicito,peresempionel

    momentoincuiessevengonoimpiegatepereffettuarela

    traduzione automatica di contenuti web da una lingua

    allaltra. Considerando i costi della traduzione manuale

    di tali contenuti, pu apparire sorprendente quanto sia

    limitata la quantit di tecnologie linguistiche effettiva-

    mente disponibili, specialmente se paragonata ai biso-

    gni.

    Daltra parte, questo risulta meno sorprendente se pren-

    diamo in considerazione la complessit della lingua ita-

    liana e la quantit di tecnologie richieste per una tipi-

    ca applicazione di tecnologie del linguaggio. Nel prossi-

    mo capitolo, presentiamo unintroduzione alle tecnolo-

    gie del linguaggio e ai loro ambiti applicativi principali;

    proponiamo inoltre una valutazione della situazione at-

    tuale di queste tecnologie per la lingua italiana.

    13

  • 7/23/2019 Lengua italiana

    21/77

    4

    LE TECNOLOGIE LINGUISTICHE PER LITALIANO

    Le tecnologie linguistiche sono usate per sviluppare si-

    stemi soware progettati per gestire il linguaggio uma-

    no e di conseguenza sono spesso chiamate tecnologia

    del linguaggio umano. Il linguaggio umano si presen-

    ta in forma orale o scritta. Mentre la voce la forma di

    comunicazione linguistica pi antica e pi naturale in

    terminievolutivi,linformazionecomplessaelamaggiorparte della conoscenza sono memorizzate e trasmesse in

    testi scritti. Le tecnologie vocali e testuali elaborano o

    producono queste diverse forme di linguaggio usando i

    dizionari, le regole della grammatica e della semantica.

    Ci significa che la tecnologia linguistica (TL) collega

    il linguaggio a varie forme di conoscenza, indipenden-

    temente dal mezzo (discorso o testo) con cui espressa.

    La Figura1illustra il panorama delle tecnologie lingui-

    stiche.uando comunichiamo, combiniamo il linguaggio con

    altri modi di comunicazione e mezzi di informazione

    per esempio il parlare pu includere gesti ed espressioni

    facciali. I testi digitali sono collegati a immagini e suoni.

    I film possono contenere il linguaggio in forma parlata e

    scritta.Inaltreparole,letecnologievocalietestualisiso-

    vrappongono e interagiscono con altre tecnologie della

    comunicazione multimodali e multimediali.

    In questo capitolo, presenteremo i campi principali diapplicazione delle tecnologie linguistiche, ovveroil con-

    trolloortograficoegrammaticalediunalingua,laricerca

    suWeb,latecnologiavocale,elatraduzioneautomatica.

    ueste applicazioni e tecnologie di base includono:

    correzione ortografica

    supporto alla creazione di documenti

    apprendimento linguistico assistito da computer

    information retrieval

    estrazione di informazione

    sommarizzazione automatica

    question answering

    riconoscimento vocale sintesi vocale

    Lareadiricercarelativaalletecnologiedellinguaggiodi-

    sponedi unvasto insieme di letteratura introduttiva;per

    un approfondimento si rimanda ai seguenti riferimenti

    bibliografici: [11,12,13,14,15].

    Prima di discutere queste aree di applicazione, descrive-

    remo brevemente larchitettura di un tipico sistema di

    tecnologie del linguaggio.

    4.1ARCHITETTURE APPLICATIVELe applicazioni soware per lelaborazione del linguag-

    giogeneralmentesonocostituitedapicomponentiche

    rispecchiano i diversi aspetti del linguaggio. Sebbene si

    tratti di applicazioni in genere molto complesse, la Fi-

    gura2mostra unarchitettura altamente semplificata di

    un tipico sistema di elaborazione del testo. I primi tremoduli gestiscono la struttura e il significato del testo in

    ingresso:

    1. Pre-processing: prepara i dati, analizza o rimuove il

    formato, rileva la lingua in ingresso, rileva gli accenti

    (citt e citta) e gli apostrofi (dellUE e della

    UE) per litaliano, e cos via.

    14

  • 7/23/2019 Lengua italiana

    22/77

    Tecnologiemultimediali e

    multimodali

    Tecnologielinguistiche

    Tecnologie vocali

    Tecnologie perl'elaborazione del testo

    Tecnologie della conoscenza

    1: Tecnologie linguistiche

    2. Analisi grammaticale: riconosce il verbo, i suoi og-

    getti, modificatori e altre parti del discorso e inoltre

    rileva la struttura della frase.3. Analisi semantica: esegue la disambiguazione (cio

    assegna un significatoappropriato alle parole in base

    al contesto), risolve lanafora (cio quali pronomi si

    riferiscono a quali sostantivi nella frase) e le espres-

    sioni sostitutive, e rappresenta il significato della fra-

    se in un formato leggibile da una macchina.

    Dopoaveranalizzatoiltesto,deimodulispecificiperun

    certo compito possono eseguire altre operazioni, come

    il riassunto automatico e la ricerca in un database.

    Dopoaver introdotto le aree chiave della tecnologie lin-

    guistiche, nella parte restante di questocapitolo fornire-

    mo prima una breve panoramica dello stato attuale del-

    la ricerca e della formazione in questo campo e poi un

    quadro dei programmi di ricerca passati e attuali. Infine,

    presenteremo una stima esperta degli strumenti e delle

    risorse che sono fondamentali per litaliano da diversi

    punti di vista, quali la disponibilit, la maturite la qua-

    lit. La situazione generale delle tecnologie linguistiche

    per litaliano infine riassunta in Figura8alla fine di

    questo capitolo. uesta tabella elenca tutti gli strumen-

    ti e le risorse che sonoevidenziatinel testo. Le tecno-

    logie linguistiche per litaliano sono confrontate anche

    con quelle per le altre lingue facenti parte di questa col-

    lana.

    4.2AMBITI APPLICATIVIPRINCIPALIIn questa sezione, ci concentriamo sugli strumenti e le

    risorse pi importanti per le tecnologie linguistiche, per

    poi passare ad una panoramica delle attivit legate alle

    tecnologie del linguaggio in Italia.

    4.2.1 Controllo ortografico egrammaticale

    Chiunque abbia usato un editore di testo come Micro-

    so Word sa che dispone di un correttore ortograficoche evidenzia gli errori di ortografia e propone delle

    correzioni. I primi programmi di correzione ortografica

    confrontavano una lista di parole estratte con un dizio-

    nario di parole scritte correttamente. Oggi questi pro-

    grammi sono molto pi sofisticati. Utilizzando algorit-

    mi dipendenti dalla lingua per lanalisi grammaticale,

    rilevano gli errori relativi alla morfologia (per esempio,

    laformazionedelplurale),coscomeglierrorirelativial-

    lasintassi,comeunverbomancanteounconflittodiac-cordo verbo-soggetto contratto (ad esempio,lei *scrio

    una lettera). Ma la maggior parte dei correttori ortogra-

    fici non trover alcun errore nel testo che segue [16]:

    *Per salire in casa occorre fare 15scali

    (Per salire in casa occorre fare 15gradini)

    15

  • 7/23/2019 Lengua italiana

    23/77

    Testo in input

    Pre-elaborazione Analisigrammaticale

    Analisisemantica

    Moduli specifici delcompito

    Output

    2: Architettura tipica di unapplicazione per lelaborazione del testo

    La gestione di questo tipo di errori di solito richiede

    unanalisi del contesto. uesto tipo di analisi deve at-

    tingere a dellegrammatichespecifiche per una lingua,

    faticosamente codificate nel soware da parte di esper-ti, o ad un modello di linguaggio statistico. In questul-

    timo caso, un modello calcola la probabilit di una cer-

    ta parola di comparire in una determinata posizione (ad

    esempio,traleparolechelaprecedonoelaseguono).Ad

    esempio: 15 gradini unasequenzadiparolepiproba-

    bile di15 scali. Un modello di linguaggio statistico pu

    essere creato automaticamente utilizzando una grande

    quantit di dati linguistici (corretti), un cosiddetto cor-

    pus testuale. La maggior parte di questi approcci sonostati sviluppati sulla base di dati per la lingua inglese.

    Nessuno dei due approcci pu essere facilmente trasfe-

    rito allitaliano perch la lingua ha un ordine flessibile

    delle parole e un sistema flessionale pi ricco.

    Il controllo ortografico e grammaticale non limitato

    agli editori di testo, ma usato anche in sistemi di sup-

    porto alla creazione di documenti, cio ambienti so-

    ware con cui sono scritti i manuali e altra documentazio-

    ne che segue standard particolari per le tecnologie del-

    linformazione, i prodotti sanitari, lingegneria ed altro.

    Temendo lamentele da parte dei clienti circa luso scor-

    rettoerichiestedirisarcimentoperdannidovutiaistru-

    zionipocochiare,leaziendesonosemprepiconcentra-

    te sulla qualit della documentazione tecnica, puntando

    al contempo al mercato internazionale (tramite tradu-

    zione o localizzazione).I progressinella elaborazionedel

    linguaggio naturale hanno portato allo sviluppo di so-

    ware di supporto alla creazione di documenti, che aiu-

    tano lautore di documentazione tecnica nelluso di unvocabolario e di una costruzione della frase coerenti con

    le regole del settore e con le restrizioni terminologiche

    aziendali.

    Luso del controllo ortografico e grammaticalenon limitato agli editori di testo ma usato

    anche nei sistemi di supporto alla creazione didocumenti.

    Oltre ai correttori ortografici e ai supporti alla creazio-

    ne di documenti,il controllogrammaticale importante

    anchenelcampodellapprendimentodellelingueassisti-

    to da computer. Le applicazioni di controllo grammati-

    cale correggono automaticamente le query deimotoridi

    ricerca, come ad esempio nei suggerimenti di Google.

    4.2.2 Ricerca nel WebLa ricerca nel Web, nelle intranet o nelle biblioteche di-

    gitali probabilmente lapplicazione di tecnologia del

    linguaggio oggi pi usata, anche se in gran parte anco-

    ra poco sviluppata. Il motore di ricerca di Google, che

    ha iniziato nel 1998, gestisce oggi circa l80% di tutte le

    querydi ricerca [17]. Linterfaccia di ricerca di Google

    16

  • 7/23/2019 Lengua italiana

    24/77

    Testo in input Controllo ortografico Controllo grammaticale Proposte di correzione

    Modello statistico di linguaggio

    3: Correttore ortografico e grammaticale (sopra: statistica, sotto: a regole)

    e la pagina che mostra i risultati non sono significativa-

    mente cambiate rispetto alla prima versione. Tuttavia,

    nella versione attuale Google offre la correzione orto-

    grafica per le parole errate e di recente ha incorporato

    delle funzionalit di base di ricerca semantica che pos-

    sono migliorare la precisione della ricerca analizzando ilsignificatodeiterminiinundatocontestodi query diri-

    cerca [18]. La storia del successo di Google mostra che

    grandiquantitdidatiuniteatecnichediindicizzazione

    efficienti sono in grado di fornire risultati soddisfacenti

    usando un approccio basato sulla statistica.

    Per richieste di informazioni pi sofisticate, essenzia-

    le integrare delle conoscenze linguistiche pi approfon-

    dite che consentano linterpretazione del testo. Espe-

    rimenti che hanno utilizzato delle risorse lessicalico-me thesauri elettronici o risorse linguistiche ontologi-

    che(adesempio, WordNet per lingleseo ItalWordNet e

    MultiWordNet per litaliano) hanno dimostrato dei mi-

    glioramenti nella ricerca di pagine utilizzando dei sino-

    nimidei termini di ricerca originali, comeenergia ato-

    mica e energia nucleare, o termini meno strettamente

    connessi.

    La prossima generazione di motori di ricerca dovr in-

    cludere una tecnologia linguistica molto pi sofisticata,

    inparticolareperaffrontare query diricercacostituiteda

    domande o altri tipi di frase, piuttosto che da un elenco

    diparolechiave.PerlarichiestaDammiun elenco di tutte

    le aziende che sono state rileate da altre societ negli ul-

    timi cinque anni, necessaria unanalisi semantica oltre

    a quella sintattica. Il sistema dovr inoltre fornire un in-

    dice per recuperare rapidamente i documenti rilevanti.

    Una risposta soddisfacente richieder lanalisi sintattica

    per analizzare la struttura grammaticale della frase e de-

    terminare che lutente desidera conoscere le aziende che

    sono state acquisite, e non le societ che hanno acquisi-

    to altre societ. Per lespressionegli ultimi cinque anni, ilsistema deve determinare gli anni in questione. E la que-

    rydeve essere confrontata con una quantit enorme di

    dati non strutturati per trovare la o le informazioni per-

    tinenti che lutente desidera. uesto processo si chiama

    information retrieval, e implica la ricerca e la classifica-

    zione dei documenti rilevanti. Per generare un elenco di

    societ, il sistema deve anche riconoscere che una parti-

    colare stringa di parole in un documento il nome del-

    la societ, utilizzando un processo chiamato riconosci-mento di entit nominate.

    La prossima generazione di motori di ricercadovr includere una tecnologia linguistica molto

    pi sofisticata.

    Una sfida ancora pi impegnativa far corrispondere

    unaqueryin una lingua con dei documenti in unaltra

    lingua. Ilcross-lingual information retrievalcomporta

    tradurre automaticamente laqueryin tutte le lingue di

    origine possibili e poi di nuovo tradurre i risultati nella

    lingua di destinazione.

    Ora che i dati sono sempre pi disponibili in formati

    non testuali, sono necessari dei servizi che offrano il re-

    cuperodiinformazionemultimedialeattraversolaricer-

    17

  • 7/23/2019 Lengua italiana

    25/77

    Query utente

    Pagine web

    Pre-elaborazione Analisi della query

    Pre-elaborazione Elaborazione semantica Indicizzazione

    Corrispondenzae

    rilevanza

    Risultati della ricerca

    4: Ricerca su Web

    ca di immagini, file audio e dati video. Nel caso di file

    audio e video, un modulo di riconoscimento vocale de-

    ve convertire il contenuto parlato in testo (o in una rap-

    presentazione fonetica) che possa poi essere confrontato

    con unaquerydellutente.

    In Italia, aziende come Expert System e CELI, tra le al-tre, sviluppano e applicano con successo le tecnologie di

    ricerca semantica.

    4.2.3 Interazione Vocale

    Linterazione vocale una delle molte aree applicati-

    ve che dipendono dalle tecnologie vocali, ovvero quello

    tecnologiecheconsentonolelaborazionedellinguaggio

    parlato. Le tecnologie per linterazione vocale sono uti-

    lizzate per creare interfacce che consentono agli uten-

    ti di interagire in linguaggio parlato anzich usare un

    display grafico, tastiera e mouse. Oggi, queste interfac-

    ce utente vocali (Voice User Interfaces VUI) vengono

    utilizzateperservizitelefonicicompletamenteoparzial-

    mente automatizzati chevengono forniti dalle societai

    clienti, ai dipendenti o ai partner commerciali. I domini

    applicativi che si basano massicciamente sulle VUI in-

    cludono banche, catene di distribuzione, trasporti pub-

    blici, e telecomunicazioni. Altri usi delle tecnologie per

    linterazione vocale includono le interfacce dei sistemi

    di navigazione per auto e luso del linguaggio parlato co-

    mealternativaalleinterfaccegraficheotouch-screenne-gli smartphone.

    Linterazione vocale comprende quattro tecnologie:

    1. Il riconoscimento vocale automatico (ASR), che

    determina quali parole sono effettivamente pronun-

    ciate in una data sequenza di suoni emessi da un

    utente.

    2. La comprensione del linguaggio naturale analizza la

    struttura sintattica dellespressione di un utente e lainterpreta secondo il sistema in questione.

    3. La gestione del dialogo determina lazione da intra-

    prendere in base allinputdellutentee le funzionalit

    del sistema.

    4. La sintesi vocale (text-to-speech o TTS) trasforma la

    risposta del sistema in suoni per lutente.

    18

  • 7/23/2019 Lengua italiana

    26/77

    Input vocale Elaborazione delsegnale

    Output vocale Sintesi vocaleRicerca fonetica e

    pianificazionedell'intonazione

    Comprensione dellinguaggio naturale

    e dialogo

    Riconoscimento

    5: Sistema di dialogo parlato

    La tecnologia vocale rappresenta la baseper creare delle interfacce che permettano

    ad un utente di interagire tramite il linguaggio

    parlato anzich usare uno schermo grafico,tastiera e mouse.

    Una delle sfide principali dei sistemi di riconoscimento

    vocale consiste nel riconoscere con precisione le paro-

    le pronunciate da un utente. uesto significa limitare la

    gammadiespressionipossibilidegliutentiaduninsieme

    limitato di parole chiave, oppure creare manualmente

    dei modelli di linguaggio che coprano una vasta gamma

    di espressioni in linguaggio naturale. Utilizzando tecni-

    che dimachine learning, dei modelli di linguaggio pos-

    sono essere generati anche automaticamente da corpo-

    ra di parlato, ovvero grandi raccolte di file audio voca-

    li e trascrizioni testuali. Limitare le espressioni di solito

    costringe le persone a utilizzare linterfaccia utente vo-

    cale in modo rigido e pu pregiudicare laccettazione da

    parte dellutente, ma la creazione, ladattamento e la ma-

    nutenzione di modelli di linguaggio ricchi aumentano

    sensibilmente i costi. Le interfacce vocali che utilizzano

    modelli linguistici e permettono inizialmente allutente

    di esprimere le proprie intenzioni in modo pi flessibile

    per esempio tramite un saluto introduttivo comeCo-

    me posso aiutarla? tendono ad essere automatizzate e

    sono accettate meglio dagli utenti.

    Le aziende tendono ad usare delle espressioni pre-

    registrate da attori professionisti per generare loutput

    dellinterfaccia utente vocale. Per espressioni statiche in

    cui la formulazione non dipende da contesti duso par-

    ticolari o da dati personali, questo pu offrire unespe-

    rienza pi ricca per lutente. Tuttavia, i contenuti pi di-

    namici in un enunciato potrebbero essere compromes-

    si da unintonazione innaturale derivante dalla semplice

    combinazionediframmentidifileaudio.Isistemidisin-

    tesi vocale attuali sono in continuo miglioramento (an-

    che se possono essere ancora ottimizzati) nel produrre

    espressioni dinamiche che suonino naturali.

    Nel mercato dellinterazione vocale le interfacce sono

    state notevolmente standardizzate negli ultimi dieci an-

    ni in termini di componenti tecnologici vari. C statoanche un forte consolidamento nel mercato del ricono-

    scimentovocaleedellasintesivocale.Imercatinazionali

    dei paesi del G20 (paesi economicamente resilienti e in-

    tensamente popolati) sono stati dominati da sole cinque

    figuredilivellomondiale,conNuance(USA)eLoquen-

    do(Italia)arappresentarelefigurepiimportantiinEu-

    ropa. Nel 2011, Nuance ha completato lacquisizione di

    Loquendo, definendo cos un ulteriore passo avanti nel

    consolidamento del mercato.

    Nel mercato del riconoscimento vocale automatico per

    la lingua italiana, ci sono anche aziende pi piccole co-

    me PerVoice, Cedat85 e Synthema. Per quanto riguarda

    la tecnologia e il know-how della gestione del dialogo, il

    mercato dominato da operatori nazionali per le PMI.

    InItalia,questiincludonoIMServiceLab.Piuttostoche

    19

  • 7/23/2019 Lengua italiana

    27/77

    fare affidamento su un modello produttivo basati su li-

    cenze soware, queste aziende sono posizionate princi-

    palmente come fornitori di servizi completi che creano

    interfacce utente vocali come parte di un servizio di in-

    tegrazione di sistema. Nel settore della tecnologia inte-

    rattiva, non vi ancora un vero mercato per tecnologie

    di base basate su analisi sintattica e semantica.

    LadomandadiinterfacceutentevocaliinItaliacresciu-

    ta rapidamente negli ultimi cinque anni, trainata dal-

    la richiesta crescente di servizi self-service da parte dei

    clienti e dalla crescente accettazione del linguaggio par-

    lato come mezzo per linterazione uomo-macchina.

    Guardando al futuro, ci saranno cambiamenti significa-

    tivi dovuti alla diffusione degli smartphone quale nuovapiattaforma per la gestione delle relazioni con i clienti

    in aggiunta ai telefoni fissi, Internet e posta elettronica.

    uestoinfluiranchesulmodoincuiusatalatecnolo-

    gia vocale. Nel lungo periodo, ci saranno sempre meno

    interfacce vocali basate sul telefono e il linguaggio par-

    lato avr un ruolo molto pi centrale come modalit di

    accessoperglismartphone.uestosaringranpartede-

    terminato dai miglioramenti intervenuti nellaccuratez-

    za del riconoscimento vocale indipendente dal parlanteattraverso i servizi di dettatura vocale gi offerti come

    servizi centralizzati agli utenti di smartphone.

    4.2.4 Traduzione automatica

    Lidea di utilizzare i computer per tradurre le lingue na-

    turali risale al 1946 ed stata seguita da cospicui finan-

    ziamentiperlaricercaduranteglianni50enuovamente

    negli anni 80. Eppure latraduzione automatica(Ma-

    chine Translation,MT)nonancoraingradodimante-

    nere la sua promessa iniziale.

    Nella traduzione automatica, lapproccio pi semplice

    consiste nel sostituire automaticamente le parole di un

    testo in una certa lingua naturale con parole in unaltra

    lingua. uesto pu essere utile in ambiti che hanno un

    linguaggio molto limitato e stereotipato, come le previ-

    sioni meteo. Ma per produrre una buona traduzione di

    testi meno standardizzati, o per unit di testo pi gran-

    di(comesintagmi,frasioancheinteripassaggi),devono

    essere trovati gli omologhi migliori nella lingua di arri-

    vo.

    Ad un livello base, la traduzione automaticaconsiste semplicemente nella sostituzione di

    parole in una lingua con parole in unaltra lingua.

    Ladifficoltmaggiorecheillinguaggioumanoambi-

    guo.Lambiguitcreaproblemisupilivelli,adesempio

    a livello lessicale (la parola inglesejaguarpu essere tra-

    dotta come una marca di auto o come un animale) o a

    livello sintattico, per esempio:

    e chicken is readyto eat.

    [Il pollo prontoa mangiare.]

    [Il pollo prontoper essere mangiato.]

    Un modo di costruire un sistema di MT consiste nel-

    lutilizzare delle regole linguistiche. Per le traduzioni tra

    lingue molto simili, una traduzione diretta basata sul-

    la sostituzione pu essere fattibile in casi come quello

    dellesempio precedente. Tuttavia, i sistemi basati su re-

    gole (o basati sulla conoscenza linguistica) spesso ana-

    lizzano il testo in input e creano una rappresentazione

    simbolica intermedia da cui il testo pu essere generato

    nella lingua di destinazione. Il successo di questi meto-

    di fortemente dipendente dalla disponibilit di grandi

    lessici dotati di informazioni morfologiche, sintattiche

    e semantiche, e di grandi insiemi di regole grammatica-

    li attentamente progettate da linguisti esperti. uesto

    un processo molto lungo e di conseguenza costoso.

    Linteresse per i modelli statistici nella traduzione auto-

    matica cresciuto verso la fine degli anni 80, quando

    la potenza di calcolo aumentata ed diventata meno

    costosa. I modelli statistici sono derivati dallanalisi di

    20

  • 7/23/2019 Lengua italiana

    28/77

    Traduzioneautomatica

    statistica

    Testo originale

    Testo finale

    Analisi testuale (formattazione,morfologia, sintassi, ecc.)

    Post-editing (formattazione,contesto, ecc.)

    Regole di traduzione

    6: Traduzione automatica (a sinistra: statistico, a destra: a regole)

    corpora testuali bilingui, come il corpus paralleloEu-

    roparl, che raccoglie gli atti del Parlamento europeo in

    21 lingue europee. Con una quantit sufficiente di dati,

    la traduzione automatica statistica funziona abbastanzabene da ricavare un significato approssimativo di un te-

    sto in una lingua straniera, elaborando versioni paralle-

    le e trovando delle sequenze di parole plausibili. Ma a

    differenza dei sistemi basati sulla conoscenza, la tradu-

    zione automatica statistica (odata-driven) spesso gene-

    ra un risultato sgrammaticato. La traduzione automati-

    cadata-driven vantaggiosa perch richiede uno sforzo

    umanominore, e puanche trattareparticolarit specia-

    lidellinguaggio(adesempio,leespressioniidiomatiche)che possono essere ignorate da sistemi basati sulla cono-

    scenza.

    I punti di forza e di debolezza della traduzione auto-

    matica basata sulla conoscenza e di quella data-driven

    tendono ad essere complementari, di modo che al gior-

    no doggi i ricercatori si concentrano su approcci ibridi

    che combinano entrambe le metodologie. Un approc-

    cioparticolareutilizzasiasistemi basati sulla conoscenza

    che data-driven, con un modulo di selezione che decide

    la migliore uscita per ogni frase. Tuttavia, i risultati per

    frasi pi lunghe di 12 parole saranno spesso ben lonta-

    ni dallessere perfetti. Una soluzione pi soddisfacente

    consiste nel combinare le parti migliori di ogni frase da

    pi uscite diverse; la cosa pu essere piuttosto comples-

    sa, in quanto non sempre evidente quali siano le parti

    corrispondenti di alternative multiple, che devono esse-

    re allineate.

    La traduzione automatica particolarmenteimpegnativa per la lingua italiana.

    La traduzione automatica particolarmente impegnati-

    va per la lingua italiana, che morfologicamente com-

    plessa ed ha un ordine libero delle parole nella frase. Ci

    sono alcune aziende in Italia attive nel settore della tra-

    duzioneautomatica,soprattuttonellafornituradiservi-

    zi per usi professionali (ad esempio, Translated).

    Lusodellatraduzioneautomaticapuaumentarelapro-

    duttivit in modo significativo, ammesso che il sistema

    sia adattato in modo intelligente alla terminologia spe-

    cifica per lutente e integrato nel flusso di lavoro. Sono

    stati sviluppati dei sistemi speciali per supportare la tra-

    duzione interattiva.

    Il potenziale di miglioramento della qualit dei sistemi

    di traduzione automatica ancora enorme. Le sfide at-

    tuali riguardano ladattamento delle risorse linguistiche

    a un dominio o argomento determinato e lintegrazio-

    ne della tecnologia nei flussi di lavoro che dispongono

    gi di database di termini e memorie di traduzione. Un

    altro problema che la maggior parte dei sistemi attuali

    sono incentrati sullinglese e supportano solo alcune lin-

    gue da e verso litaliano. uesto comporta una frizione

    nel flusso di lavoro di traduzione e costringe gli utenti

    21

  • 7/23/2019 Lengua italiana

    29/77

    Lingua target Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

    EN 40.5 46.852.6 50.041.055.234.8 38.650.137.250.439.643.439.852.349.255.049.0 44.750.7 52.0BG 61.3 38.7 39.4 39.6 34.546.925.5 26.742.422.043.529.3 29.1 25.944.935.145.936.8 34.1 34.1 39.9DE 53.626.3 35.443.132.847.126.7 29.539.427.642.727.630.319.850.230.244.130.729.431.441.2CS 58.432.042.6 43.634.648.930.7 30.541.627.444.334.5 35.826.346.539.245.736.543.6 41.3 42.9

    DA57.628.744.135.7 34.347.527.831.641.324.243.829.732.921.148.534.345.433.9 33.0 36.247.2EL 59.532.443.137.744.5 54.026.5 29.048.323.749.629.032.623.848.934.252.537.2 33.1 36.343.3ES 60.031.142.737.544.439.4 25.4 28.551.324.051.726.830.524.648.833.957.338.1 31.7 33.943.7ET 52.024.637.3 35.2 37.828.240.4 37.7 33.4 30.9 37.0 35.0 36.920.541.332.0 37.828.030.6 32.9 37.3FI 49.323.236.0 32.0 37.927.239.7 34.9 29.5 27.236.6 30.5 32.519.440.628.837.526.5 27.3 28.237.6FR 64.034.545.139.547.4 42.860.926.730.0 25.556.128.331.925.351.635.761.043.833.1 35.645.8HU48.024.734.3 30.0 33.025.534.129.6 29.430.7 33.529.631.918.136.129.834.225.7 25.6 28.230.5IT 61.032.144.338.945.8 40.626.9 25.0 29.752.724.2 29.432.624.650.535.256.539.3 32.5 34.744.3LT 51.827.633.9 37.0 36.826.5 21.134.2 32.0 34.428.536.8 40.122.238.1 31.6 31.629.331.8 35.3 35.3LV 54.029.135.0 37.8 38.529.7 8.0 34.2 32.4 35.629.338.9 38.4 23.341.534.4 39.6 31.0 33.3 37.1 38.0MT72.132.2 37.2 37.9 38.9 33.748.726.9 25.842.422.443.730.2 33.2 44.037.145.938.9 35.840.0 41.6NL 56.929.346.937.045.435.349.727.5 29.843.425.344.528.631.722.0 32.047.733.0 30.1 34.643.6PL 60.831.540.2 44.2 42.134.246.229.2 29.040.024.543.233.2 35.627.944.8 44.138.2 38.2 39.842.1PT 60.731.442.938.442.8 40.260.726.4 29.253.223.852.828.031.524.849.334.5 39.4 32.1 34.443.9RO60.833.1 38.5 37.840.335.650.424.6 26.246.525.044.828.4 29.9 28.743.035.848.5 31.5 35.1 39.4SK 60.832.6 39.448.1 41.033.346.229.8 28.439.427.441.833.8 36.728.544.439.043.335.3 42.6 41.8SL 61.033.1 37.943.5 42.634.047.031.128.838.225.742.334.6 37.3 30.045.938.244.135.8 38.9 42.7SV 58.526.941.035.646.633.346.627.430.9 38.922.742.028.231.023.745.632.244.232.7 31.3 33.5

    7: Traduzione automatica tra 22 lingue dellUE Machine translation between 22 EU-languages [19]

    dei sistemi di traduzione automatica ad apprendere lu-

    so di strumenti diversi di codifica dei lessici per sistemi

    diversi.Le campagne di valutazione aiutano a confrontare la

    qualitdeisistemiditraduzioneautomatica,idiversiap-

    procci e lo stato dei sistemi per coppie di lingue diverse.

    La Figura7(p.22), che stata preparata durante il pro-

    getto europeo Euromatrix +, mostra le prestazioni otte-

    nute per coppie di lingue su 22 delle 23 lingue ufficiali

    dellUE (lirlandese non stato confrontato). I risultati

    sono classificati in base al punteggio BLEU, che assegna

    punteggi pi alti alle traduzioni migliori [20] (un tra-duttoreumanoraggiungerebbeunpunteggiodicirca80

    punti).

    I ris