Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon...
-
Upload
emigdia-oliva -
Category
Documents
-
view
105 -
download
2
Transcript of Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon...
![Page 1: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/1.jpg)
Building Machine Translation Systems for Indigenous
Languages
Ariadna Font Llitjós (Carnegie Mellon University)[email protected]
Roberto Aranovich (University of Pittsburgh) [email protected]
Lori Levin (Carnegie Mellon University) [email protected]
![Page 2: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/2.jpg)
2
Cooperación
• Lingüistas computacionales
(Language Technologies Institute, Carnegie Mellon University)
• Comunidades aborígenes de América Latina (comunidad mapuche de Chile y comunidad quechua de Perú).
![Page 3: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/3.jpg)
3
El Projecto Avenue
• Desarrollar tecnologías lingüísticas para lenguas con escasos recursos en forma rápida y accesible económicamente.
![Page 4: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/4.jpg)
4
Tecnologías lingüísticas
• Bases de datos en formatos electrónicos estandarizados.
• Diccionarios electrónicos.
• Correctores ortográficos.
• Analizadores morfológicos automáticos.
• Sistemas de traducción automática.
![Page 5: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/5.jpg)
5
Cooperación institucional (mapudungún)
• Las instituciones que han cooperado en la producción de tecnologías lingüísticas para el mapudungún son:
• El Projecto Avenue.
• El Ministerio de Educación de Chile.
• El Instituto de Estudios Indígenas, Universidad de la Frontera (UFRO).
![Page 6: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/6.jpg)
6
El mapudungún
• Lengua aglutinante y polisintética hablada en el centro-sur de Chile y Argentina.
• 900.000 mapuches.
• Al menos 300.000 hablantes.
![Page 7: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/7.jpg)
Sistema de traducción mapudungún-español basado en reglas
Léxico mapuche(raíces y
morfemas)
Analizador morfológico mapuche
Input: oración/frase/palabra mapuche
Grámatica de transferencia/Léxico de transferencia Input segmentado
morfológicamente/rasgos gramaticalesespecificados
Estructura gramaticalequivalente en español(palabras no flexionadas+ rasgos gramaticales)
Generadormorfológicoespañol
Output: oración/frase/palabraespañola
Léxico español(palabras flexionadas) (Universidad Politécnica de Barcelona)
Sistema de transferencia
![Page 8: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/8.jpg)
8
Un ejemplo
83:
sl: pe-rke-fi-ñ Maria
ver-REPORT-3pO-1pSgS/IND
tl: DICEN QUE LA VI A MARÍA
tree: <((SBAR,1 (LITERAL "DICEN") (LITERAL "QUE") (S,3 (VP,3 (VBAR,6 (CLITIC,4:0 "LA") (TENSEBAR,1 (V,4:1 "VI") ) ) (LITERAL "A") (NP,4 (NBAR,2 (N,2:5 "MARÍA") ) ) ) ) ) )>
![Page 9: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/9.jpg)
9
Segmentación morfológica(programa desarrollado por Carlos Fasola)
((REPORTATIVE +)
(PERSON 1)
(NUMBER SG)
(MOOD IND)
(OBJECT
((PERSON 3))))
pe-rke-fi-ñ ver-REPORT-3O-1sS/IND
![Page 10: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/10.jpg)
10
Gramática de transferencia (1)
• Formalismo desarrollado para manipular rasgos gramaticales (transferir, insertar, transformar).
• Itemes léxicos → constituyentes sintácticos.
• Constituyentes sintácticos → constituyentes sintácticos.
• Lengua fuente → lengua meta.
![Page 11: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/11.jpg)
11
Ejemplo de regla:pl N con pluralizador pu (pu ruka::casas)
{NBar,1} ;;identificadorNBar::NBar : [PART N] -> [N] ;;especificación de
los ;;constituyentes( (X2::Y1) ;; alineación ((X1 number) =c pl) ;;restricción ((X0 number) = (X1 number)) ;; transferencia
((Y0 number) = (X0 number)) ;; de rasgos((Y1 number) = (Y0 number))((Y0 gender) = (Y1 gender)))
)
![Page 12: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/12.jpg)
12
Representación arbórea
NBar(X0) NBar(Y0)
PART(X1) N(X2) N(Y1)
pu ruka casas
numnum
num
gen
![Page 13: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/13.jpg)
13
Reglas que se aplican en perkefiñ
• Problemas a resolver:• 1. Concatenación de los sufijos • 2. Determinar el tiempo en mapudungún y
transferirlo al español• 3. Insertar el clítico en la lengua meta• 4. Insertar la preposición a en la lengua
meta• 5. Insertar el verbo modal y el
subordinante que en la lengua meta
![Page 14: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/14.jpg)
14
Estructuras comparadas
O O
FV FV
V FN V O
pe-rke-fi-ñ Maria S VP
CL-V FP
P NP dicen que la vi a María
![Page 15: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/15.jpg)
15
Concatenación de sufijos (1)
{VSuffG,1}VSuffG::VSuffG : [VSuff] -> [“ “]( (X0 = X1))
VSuffG
VSuff
-rke (+ reportativo)
rasgos
![Page 16: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/16.jpg)
16
Concatenación de sufijos (2)
{VSuffG,2}VSuffG::VSuffG : [VSuffG VSuff] -> [""]( (X0 = X1) (X0 = X2)) VSuffG
VSuffG VSuff
-rke -fi (reportativo) (3pO)
rasgos rasgos
![Page 17: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/17.jpg)
17
Concatenación de sufijos (3)
VSuffG
VSuffG VSuff
rke-fi- -ñ
(reportativo, 3pO) (1pSgS/ind)
![Page 18: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/18.jpg)
18
El tiempo en mapudungún (1)
• Tiempo no marcado + aspecto léxico no marcado + aspecto externo no marcado
→ pasado (kellu-n::ayudé::(I)helped)
• Tiempo no marcado + aspecto léxico estativo
→ presente (niye-n::poseo::(I)own)
![Page 19: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/19.jpg)
19
El tiempo en mapudungún (2)
• Tiempo no marcado + aspecto léxico no marcado + aspecto externo habitual → presente (kellu-ke-n::ayudo::(I)help)
• Tiempo marcado (pe-a-n::veré::(I)will see)
![Page 20: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/20.jpg)
20
Tiempo pasado
{TenseBar,1}TenseBar::TenseBar : [V VSuffG] -> [V]( (X1::Y1) ((X2 tense) = *UNDEFINED*) ((X1 lexicalaspect) = *UNDEFINED*) ((X2 aspect) = (*NOT* habitual)) ((X0 tense) = past) (X0 = X1) (X0 = X2) (Y0 = Y1))
![Page 21: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/21.jpg)
21
Inserción del tiempo
TenseBar
V VSuffG
tense
![Page 22: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/22.jpg)
22
Inserción del clítico (1){VBar,6}VBar::VBar : [TenseBar] -> [CLITIC V]( (X1::Y2) ((X1 object person) =c 3) ((X0 person) = (X1 person)) ((X0 number) = (X1 number)) ((X0 object person) = (X1 object person)) ((X0 object number) = (X1 object number)) ((Y0 objmarker) = Y1) ((Y0 person) = (X0 person)) ((Y0 number) = (X0 number)) ((Y0 object person) = (X0 object person)) ((Y0 object number) = (X0 object number)) ((Y2 person) = (Y0 person)) ((Y2 number) = (Y0 number)) ((Y1 person) = (Y0 object person)) ((Y1 number) = (Y0 object number)) ((Y1 type) =c personal) ((Y1 case) =c acc))
![Page 23: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/23.jpg)
23
Inserción del clítico (2)
VBar VBar
TenseBar CL V
la vi
V VSuffG
pe rke-fi-ñ
S AGRO AGR
S AGRO AGR
S AGRO AGR
S AGRO AGR
![Page 24: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/24.jpg)
24
Inserción de la preposición (1)
; transitive VP (human object); pefiñ Maria::la vi a María
{VP,3}; transitive VP (human object)VP::VP [VBar NP] -> [VBar "a" NP]( (X1::Y1) (X2::Y3) ((X2 type) = (*NOT* personal)) ((X2 human) =c +) (X0 = X1) ((X0 object) = X2) (Y0 = X0) ((Y0 object) = (X0 object)) (Y1 = Y0) (Y3 = (Y0 object)) ((Y1 objmarker person) = (Y3 person)) ((Y1 objmarker number) = (Y3 number)) ((Y1 objmarker gender) = (Y3 gender)))
![Page 25: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/25.jpg)
25
Inserción de la preposición (2)
VP VP
VBar NP VBar “a” NP
perkefiñ Maria la vi a María
agr
![Page 26: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/26.jpg)
26
Inserción del verbo modal y el subordinante (1)
{Sbar,1}
Sbar::Sbar [S] -> ["Dicen" "que" S]
(
(X1::Y3)
((X1 reportative) =c +)
(X0 = X1)
(Y0 = Y3)
)
![Page 27: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/27.jpg)
27
Inserción del verbo modal y el subordinante (2)
SBar SBar
S S
VP VP
VBar NP VBar “a” NP
perkefiñ Maria “dicen” “que” la vi a María
![Page 28: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/28.jpg)
28
Generador morfológico español(Universidad Politécnica de Cataluña)
• Léxico de formas flexionadas del español con todos sus rasgos especificados
• POS, type, gender, number.
• Ejemplo:alto#AQ0FP0 altasalto#AQ0FS0 altaalto#AQ0MP0 altosalto#AQ0MS0 alto
![Page 29: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/29.jpg)
29
Algunos problemas de traducción (1)
• Denominador común: construcciones sintéticas
vs. construcciones analíticas
• Concordancia inversa:
pe-e-n
ver-INV(2pSgO)-1pSg/IND
ME VISTE
![Page 30: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/30.jpg)
30
Algunos problemas de traducción (2)
• Verbos deadjetivalesfey küme-nge-y
3sPRO bueno-VERB-3pSg/INDELLA ES BUENAÉL ES BUENO
• Voz pasivaKuan pe-nge-yJuan ver-PAS-3pSg/INDJUAN FUE VISTO
![Page 31: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/31.jpg)
31
Algunos problemas de traducción (3)
• Aspecto progresivopetu pe-yuDUR ver-1pDual/INDESTAMOS VIENDO
• Negaciónpe-la-n
ver-NEG-1pSg/INDNO VI
![Page 32: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/32.jpg)
32
Algunos problemas de traducción (4)
• Problemas adicionales:
• Verbos denominales, causativos, aplicativos, etc.
![Page 33: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/33.jpg)
33
Un ejemplo: voz pasiva
VBar VBar
TenseBar V V
fue visto/a
V VSuffG
ayuda ngey
S AGR
S AGRtense
S AGRtense
S AGRtense
tense
![Page 34: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/34.jpg)
34
Desarrollo de la gramática
• Aproximadamente 100 reglas.
• 60 sufijos en el léxico de transferencia.
• Traducción de palabras complejas, frases y oraciones declarativas simples.
![Page 35: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/35.jpg)
35
Próximos pasos
• Desarrollar reglas para oraciones interrogativas.
• Testear la gramática con diálogos simples.
![Page 36: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/36.jpg)
36
¿Preguntas?
![Page 37: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/37.jpg)
37
Base de datos electrónica (1)
• Base de datos paralela en formato electrónico (200.000 palabras de texto y 120 horas de transcripción de conversación).
• Es una base de datos paralelos (en mapudungún y español).
• La base de datos textual está constituida por textos históricos y periodísticos actuales (periódico Nuestros Pueblos, CONADI, Chile).
![Page 38: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/38.jpg)
38
Base de datos electrónica (2)
• Las conversaciones están limitadas al campo semántico de la salud primaria y preventiva.
• Las conversaciones reflejan distintos dialectos del mapudungún (lafkenche, nguluche, pewenche).
• Todos los participantes son hablantes nativos, de entre 21 y 75 años de edad.
![Page 39: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/39.jpg)
39
Base de datos electrónica (3)
• Las grabaciones fueron convertidas en archivos wave.
• Convención ortográfica de 28 letras desarrollada por el IEI-UFRO (alfabeto es compatible con los símbolos disponibles en los teclados de computadora en español).
![Page 40: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/40.jpg)
40
Base de datos electrónica (4)
Fragmento de una conversación:
I. Mantención de la salud y enfermedades
1. Chumkeymi tami külfünküleal. (Cómo hace para mantenerse as de bien.)
2. Rüfkünungey am tami amulngen kiñe machimew.
(Es verdad que el médico lo mandó donde una machi.)
![Page 41: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/41.jpg)
41
Corrector ortográfico (1)
• Prototipo de corrector ortográfico para textos en mapudungún.
• Funciona en el entorno OpenOffice, un editor de texto de distribución gratuita disponible en internet (www.openoffice.org)
• Subraya los posibles errores y propone un menú de posibles alternativas. También permite incorporar nuevas palabras al diccionario.
![Page 42: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/42.jpg)
42
Corrector ortográfico (2)
• El corrector funciona sobre la base de dos archivos:
a. Una lista de raíces (5.234) y palabras (53.094).
b. Una lista de grupos de sufijos (1.303)
(ejemplo: rke-fi-ñ /REPORT-3pO-1pSg/IND).
![Page 43: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/43.jpg)
e
![Page 44: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/44.jpg)
44
Diccionarios (1)
• Proyecto de diccionario on-line sobre la base de las palabras extraídas de la base de datos oral (IEI-UFRO).
• Palabras segmentadas en raíz-grupo de sufijos y con ejemplos de uso.
![Page 45: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/45.jpg)
45
Diccionarios (2)
• Kelluaeteu: kellu-a-eteu.ayudar-futuro-a.mi / /. el que me va a ayudar Katripache tañi kimün tati, peñi, feynga puulu iñche, iñche tañi lipang, “iñche tañi kelluaeteu ta tüfa” pipingeynga (Es conocimiento de la gente de afuera pues, hermano, entonces cuando llegué yo, mi brazo, éste es el que me va a ayudar, decía y decía) nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/ Rh20-12-02.
![Page 46: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/46.jpg)
46
Analizador morfológico (1)
• Desarrollado por Carlos Fasola
• El programa segmenta la raíz y el complejo de sufijos y obtiene la información gramatical relevante de cada morfema.
• El léxico morfológico contiene aproximadamente 1670 raíces y 105 sufijos.
![Page 47: Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University.](https://reader036.fdocuments.in/reader036/viewer/2022062621/551ce5a6550346357a8b4e11/html5/thumbnails/47.jpg)
47
Analizador morfológico (2)
Ejemplo:kofketulayay → kofketu-la-ya-y
negación = +tiempo = futuropersona = 3número = sgmodo = indicativo