INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

41
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario

Transcript of INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Page 1: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

La compilazione di un dizionario

Page 2: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

La compilazione di un dizionario

Tre fasi: Progettazione (30%) Scrittura (60%) Produzione (10%)

Page 3: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Tempistica / costi

Zgusta: “of the lexicographic projects I know, not a single one was finished in the time and for the money originally planned” Oxford English Dictionary: 7 anni 90

Problemi: Tempo richiesto per scrivere le voci Cambiamenti di staff Tempo per scrivere il software

Misura di tempo: “editor week”

Page 4: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Uso di corpora e strumenti informatici

Corpora per la scelta di parole Conto numero di caratteri Database per la redattura delle voci Controllo stilistico Produzione

Page 5: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Progettazione

A chi si rivolge il dizionario? Quante parole? Macro & micro structure Progettazione del database che verra’

usato per mantenere i dati

Page 6: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

SAMUEL JOHNSON’s PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747)

Il Dizionario dev’essere UTILE Macro structure: criteri di SELEZIONE Micro structure:

ORTOGRAFIA e PRONUNCIA ETIMOLOGIA ANALOGY (inflessione) e SYNTAX INTERPRETATION (= definizione) CITAZIONI con AUTORE

Page 7: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Tipi di pubblico

Bambini Studenti Apprendimento lingua straniera Esperti di un’area

Page 8: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Dimensioni

Concise 60,000-90,000 lemmi

Desk-size Due volte tanto

College dictionary: quante piu’ possibile

Dizionari tecnici: piu’ aggiornamento che numero

Page 9: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

CRITERI DI SELEZIONE: Dr JOHNSON

“The peculiar words of every profession”

“Words still considered to be foreign”

Page 10: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

CRITERI DI SELEZIONE

Tecnico: tutte le parole del dominio Apprendimento lingua straniera: solo

parole fondamentali Generale: anche parole tecniche Altre scelte:

Espressioni dialettali? Nomi di persona e localita’?

CED4: 18000

Page 11: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Macro structure

Ordine alfabetico Nomi? Parole derivate?

Page 12: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Micro structure

Che informazioni? Pronuncia?

Che sistema di trascrizione? Accenti?

Uso? Etimologia?

Page 13: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Fonti di dati

Dizionari esistenti Per esempio, Bailey per Johnson,

Johnson per Webster Citazioni

In-house Compilate da volontari

Corpora

Page 14: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

CRITERI DI SCELTA DI CITAZIONI NELL’OED

Make a quotation for EVERY word that strikes you as rare, obsolete, old-fashioned, new, peculiar, or used in a peculiar way. Take a special note of passages which show or imply that a word is either new or tentative, or needing explanation as obsolete or archaic, and which thus help fix the date of its introduction or disuse.

Make AS MANY quotations as convenient to you for ordinary words, when these are used significantly, and help by the context to explain their meaning, or show their use.

James Murray

Page 15: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Corpora

Using a computer is even more humbling than working from citations, because one is constantly confronted with abundant evidence of usages that are common but one would never have thought of

Landau, p. 355

Page 16: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Inizi della linguistica dei corpus

Primi corpora: anni ’30 (The Teacher Word’s Book, 5M; A Basic Writing Vocabulary)

Fino agli anni ’60 costi memoria troppo alti Anni ’60: Brown Corpus (Francis & Kucera),

Lancaster / Oslo / Bergen (Leech), Survey of English Usage (Quirk)

Page 17: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Primi usi di corpora in lessicografia

Anni ’70: concordanza elettronica di Old English a Toronto Ma: costi ancora elevati Resistenza da parte delle tipografie

’80: COBUILD (Collins / Birmingham University, Sinclair) Primo dizionario: ESL, Collins Cobuild ELD (all’epoca: 20

millioni di parole) Longman Lancaster English Language Corpus

(Leech) Primo dizionario: LDOCE (all’epoca: 80 M parole)

Page 18: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

IL British National Corpus (BNC)

Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press

Circa 100 milioni di parole Classificazione grammaticale automatica

usando il classificatore CLAWS (parti corrette a mano successivamente)

http://www.hcu.ox.ac.uk/BNC

Page 19: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

FORMATO (SGML)

<div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

Page 20: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Uso di corpora in lessicografia

Frequenze (per milione di parole) aiutano la scelta delle parole da includere Ma: “kick the bucket” non appare mai

Problema: troppi esempi (di solito 200-500, migliaia per parole comuni) Usare solo esempi da corpora

(COBUILD?) od anche esempi inventati?

Page 21: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Esempio: SURGERY

Sia British che American English: chirurgia

Solo British: clinica Prima dell’uso di corpora: dovrebbe

apparire al plurale solo in BE Non vero

Page 22: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Esempio: SIGNIFICANTLY

Definizione tradizionale: “importantly” Corpus evidence: “by a large amount”

Our prison population has significantly increased in the last ten years

Page 23: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Esempio: CRAZY

Nel corpus usato da Landau: solo plurale The crazies are out in force

Page 24: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Scelta delle parole

Da fare PRIMA di cominciare a compilare il dizionario

Problema del bilanciamento Assicurarsi che tutte le parole usate

nella definizione siano nel dizionario Puo’ richiedere fino a 20% del tempo

per un nuovo dizionario Da corpora

Page 25: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Bilanciamento

In Inglese: il numero di parole che cominciano con ‘c’ e’ piu’ di due volte il numero di parole che cominciano con ‘g’

Thorndyke: 105 ‘blocchi’ di dimensioni uguali C: 10 blocchi G: 4 blocchi

Page 26: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Blocchi di Thorndyke

c-caq car-cel cem-chim chin-cled clee-col com-conf cong-coo cop-cq cra-culs cult-cz

g-geq ger-gord gore-grouo group-gz

Page 27: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Parole e lemmi

La decisione di quali parole trattare come lemmi e quali some voci subordinate sempre difficile “listed building” (CED) “Riemannian geometry” In dizionario medico, tutti i tipi di

“agenesis” (= assenza di organo alla nascita)?

Page 28: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Uso di strumenti informatici per la scelta di parole

Dr Johnson, OED: lista di parole = una scheda per ogni voce

Oggi: formato elettronico Ordinamento alfabetico Bilanciare il dizionario contando il numero

di caratteri di ogni sezione

Page 29: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Definizioni

“first of all, a good definer must be able to write well and easily”

(Landau, p. 354)

Page 30: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Tipi di definizioni

Definizioni per dizionari di lingua straniera: Molti esempi Usi idiomatici

Page 31: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Manuale di stile

Ogni dizionario ha un manuale di regole da seguire per compilare le definizioni: Stile Tipi di definizioni Abbreviazioni Uso delle maiuscole Che tipo di informazioni grammaticali fornire Uso delle parentesi

Page 32: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Check automatico dello stile

Molti tentativi di scrivere del software che permetta di fare controlli automatici dello stile (aldila’ dei controlli grammaticali tipo Word)

Metodo principale: “controlled language”

Obiettivo ancora molto lontano

Page 33: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Database delle definizioni

Progettato inizialmente Una delle decisioni chiave (Landau) Funzioni base:

Ricerca di voci Cross indexing (= controllare che le parole della

definizione siano tutte nel dizionario) Generazione automatica delle pagine

(PRODUZIONE)

Page 34: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Tipi di database

Tradizionalmente: relazionali Oggigiorno: XML

Facilita l’aspetto produzione

Page 35: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

ODE IN XML<se>  <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1>  <ps>noun</ps> - <s2 num="1">-   <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df>   <ex>the store has a very low turnover of stock</ex>   |   </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..

Page 36: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

ELDIT EDITING TOOL (EURAC)

Page 37: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

TALES (IRST)

Page 38: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Uso dei computer in fase di produzione

Uno dei contributi piu’ importanti dell’informatica alla lessicografia

Generazione automatica di impaginazioni diverse Calcolo automatico del numero di

colonne richieste dato il numero di voci e la larghezza delle colonne

Page 39: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Produzione

150 000 voci, 2 linee x voce = 300 000 linee = 1875 pagine (= 80 linee per colonna, 2 colonne per pagina)

1.7 linee x voce: 1600 pagine

Page 40: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Gli strumenti informatici non risolvono tutti i problemi

Le definizioni devono sempre essere scritte

Landau: ora che e’ diventato cosi’ facile creare un nuovo dizionario, si presta sempre meno attenzione alla qualita’

Page 41: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario.

Letture

Jackson, cap. 13 Landau – Dictionaries: The Art and

Craft of Lexicography – ch. 7