Translation Resources Extraction using Probabilistic Translation Dictionaries

37
Extrac¸c˜ ao de Recursos de Tradu¸c˜ ao com base em Dicion´ arios Probabil´ ısticos de Tradu¸c˜ ao Alberto Manuel Brand˜ ao Sim˜ oes [email protected] Orienta¸c˜ ao: Jos´ e Jo˜ ao Dias de Almeida AlbertoSim˜oes Extrac¸c˜ ao de Recursos de Tradu¸c˜ ao

description

This is the presentation I used for my PhD defense. Twenty minutes for a three years and half of work.

Transcript of Translation Resources Extraction using Probabilistic Translation Dictionaries

Page 1: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao de Recursos de Traducao com base emDicionarios Probabilısticos de Traducao

Alberto Manuel Brandao [email protected]

Orientacao:Jose Joao Dias de Almeida

Alberto Simoes Extraccao de Recursos de Traducao

Page 2: Translation Resources Extraction using Probabilistic Translation Dictionaries

Metafora: construir pontes

EBMT

f

PhD

Alberto Simoes Extraccao de Recursos de Traducao

Page 3: Translation Resources Extraction using Probabilistic Translation Dictionaries

Metafora: construir pontes

EBMT

f

PhD

Alberto Simoes Extraccao de Recursos de Traducao

Page 4: Translation Resources Extraction using Probabilistic Translation Dictionaries

Metafora: construir pontes

EBMT

ResourcesServer

n-Grams

TranslationDictionaries

Terminology

Corpora

f

PhD

Examples

Text::Translator

ResourcesEvaluation

Alberto Simoes Extraccao de Recursos de Traducao

Page 5: Translation Resources Extraction using Probabilistic Translation Dictionaries

Decisoes

Dado que:

uma tarefa levanta uma centena de outras importantes;um doutoramento tem uma janela de 3 anos;a equipa de PLN na UM e pequena;importante a cooperacao;

Entao:

dedicar doutoramento a extraccao de recursos de traducao(dicionarios, exemplos e segmentos nominais)disponibilizar recursos e ferramentas(permitir validacao pelo uso, ter consequencia)dar especial atencao a escalabilidade das ferramentas(servidor de recursos, particao de algoritmos, escalonador PBS)integrar e compor ferramentas(investir em largura e nao em profundidade)

Alberto Simoes Extraccao de Recursos de Traducao

Page 6: Translation Resources Extraction using Probabilistic Translation Dictionaries

Progresso no Doutoramento

Example Based M

achine Translation

Get translation resources

Create Corpora

Process PC

Scalable tools

Extract Translation Dictionaries (PTDs)

Scalable tools

Different Kind of PTDs

Evaluate PTDs

Compare Corpora GenresExtract Translation Exam

ples

Scalable tools

Phrase-like examples

Examples using PTDs

Nouns phrases extraction

Compare different algorithms

Compare other approachesCompare other tools

ReleaseReleaseRelease

Integrate on Translation Systems

Text::Translator

Apertium

Alberto Simoes Extraccao de Recursos de Traducao

Page 7: Translation Resources Extraction using Probabilistic Translation Dictionaries

Motivacao — Textos paralelos

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos de Traducao

Page 8: Translation Resources Extraction using Probabilistic Translation Dictionaries

Motivacao — Frases paralelas

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos de Traducao

Page 9: Translation Resources Extraction using Probabilistic Translation Dictionaries

Motivacao — Dicionarios de traducao

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos de Traducao

Page 10: Translation Resources Extraction using Probabilistic Translation Dictionaries

Motivacao — Exemplos de traducao

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos de Traducao

Page 11: Translation Resources Extraction using Probabilistic Translation Dictionaries

Motivacao — Nominais paralelos

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos de Traducao

Page 12: Translation Resources Extraction using Probabilistic Translation Dictionaries

Progresso no Doutoramento

Example Based M

achine Translation

Get translation resources

Create Corpora

Process PC

Scalable tools

Extract Translation Dictionaries (PTDs)

Scalable tools

Different Kind of PTDs

Evaluate PTDs

Compare Corpora GenresExtract Translation Exam

ples

Scalable tools

Phrase-like examples

Examples using PTDs

Nouns phrases extraction

Compare different algorithms

Compare other approachesCompare other tools

ReleaseReleaseRelease

Integrate on Translation Systems

Text::Translator

Apertium

Alberto Simoes Extraccao de Recursos de Traducao

Page 13: Translation Resources Extraction using Probabilistic Translation Dictionaries

Escalabilidade

Escalabilidade!

metodos estatısticos ⇒ quantidadeimportante;

grandes quantidades ⇒robusteza;eficiencia;

Abordagem:

estrategias de decomposicao:

decomposicao estrutural;decomposicao porparticao/replicacao;

ferramentas de suporte:

gestao de paralelismo/pipeline;arquitectura adaptativa;ordem superior;

Escalabilidade

Alberto Simoes Extraccao de Recursos de Traducao

Page 14: Translation Resources Extraction using Probabilistic Translation Dictionaries

Decomposicao estrutural - Particao da funcao

C // f ◦ g ◦ h ◦ q // R

vs

C // f // • // g // • // h // • // q // ROOO�O�O�

OOO�O�O�

OOO�O�O�

Alberto Simoes Extraccao de Recursos de Traducao

Page 15: Translation Resources Extraction using Probabilistic Translation Dictionaries

Decomposicao por replicacao - Particao do domınio

C // f (C) // R

vs

C��

P(C)

rreeeeeeeeeeeeeeeeeeeeeee

ttiiiiiiiiiiii�� ** ,,YYYYYYYYYYYYYYYYYYYYYYYY

c1

��

c2

��

c3

��

. . .

��

cn

��f ′(c1)

��

f ′(c2)

��

f ′(c3)

��

f ′(. . .)

��

f ′(cn)

��r1

,,YYYYYYYYYYYYYYYYYYY r2

**UUUUUUUUUU r3

��

. . .

tt

rn

rreeeeeeeeeeeeeeeeeee

g(r1, r2, . . . , rn)

��R

Alberto Simoes Extraccao de Recursos de Traducao

Page 16: Translation Resources Extraction using Probabilistic Translation Dictionaries

Decomposicao nas ferramentas NATools

example1000005h 13m 38s

cleanExamples20s

example3500002h 23s

ipfp0021s

postipfp0020s

example2000005h 4m 57s

postipfp0050s

postbin0050s

postipfp0012s

postbin0012s

ipfp00113m 20s

examples3s

example1500005h 2m 48s

example05h 19m 34s

example500006h 53m 3s

example3000005h 28m 6s

example5s

example2500005h 17m 7s

postipfp0030s

postbin0030s

dicB2s

dump8s

dicA3s

postipfp00410s

postbin0049s

ipfp00413m 35s

initmat0021m 19s

postbin0020s

postipfp0062s

postbin0061s

ipfp0050s

filter18s

initmat00457s

initmat00614s

ipfp0063m 40s

initmat0051m 13s

initmat0031m 17s

ipfp0031s

codify7m 6s

initmat0011m 4s

Alberto Simoes Extraccao de Recursos de Traducao

Page 17: Translation Resources Extraction using Probabilistic Translation Dictionaries

Paralelizacao da Extraccao de Exemplos: a serio

Processamento do EurLex compreende:

mais de 1000 trabalhos;

mais de 100 nıveis de paralelismo;

mais de 16 milhoes de exemplos;

mais de 1 milhao de nominais;

mais de 10 GB de informacaoproduzida;

tempo crıtico de execucao: 4h 30m

bottleneck: acesso a disco

Gestao de dependencias complicada:

Makefile::Parallel

example1000003h 11m 26s

cleanExamples3m 58s

initmat02015m 1s

ipfp02024m 23s

example12000002h 46m 27s

example7000003h 11m 18s

ipfp00722m 11s

postipfp0072m 29s

ipfp01626m 8s

postipfp0162m 52s

postipfp0252m 29s

postbin0259s

postbin0164s

dicA1m 25s

dicB1m 14s

example11000002h 54m 20s

ipfp00122m 24s

postipfp0017m 26s

examples3m 29s

example4500004h 52m 22s

example9500003h 27m 49s

example4000003h 4m 22s

example16000002h 33m 48s

example13000003h 33m 26s

example10500003h 4m 21s

example13500003h 15m 9s

example9000003h 8m 17s

example8500003h 10m 37s

example5000003h 27m 22s

example3000003h 17m 38s

example12500003h 37m 58s

example15000004h 10m 59s

example6000002h 35m 33s

example1500003h 9m 54s

example15500004h 8m 27s

example3500003h 5m 37s

example14500004h 4m 40s

example6500002h 59m 35s

example2000003h 20m 8s

example8000003h 54m 20s

example10000003h 27m 51s

example7500002h 43m 13s

example17000002h 43m 31s

example16500002h 29m 12s

example03h 7m 41s

example500002h 57m 24s

example14000002h 23m 33s

example3s

example5500002h 51m 20s

example17500002h 11m 5s

example11500003h 9m 44s

example2500003h 9m 27s

ngramsA46m 26s

dump1m 23s

postipfp0151m 3s

postbin0153s

initmat01114m 18s

ipfp01122m 16s

initmat01312m 13s

ipfp01319m 51s

postipfp02411s

postbin0243s

postipfp0136m 55s

postipfp0177m 28s

postbin01755s

initmat0091m 42s

ipfp00921m 43s

postipfp00912m 41s

postbin0091m 39s

postipfp0105m 16s

postbin01021s

initmat0182m 13s

ipfp01825m 28s

initmat02515m 21s

ipfp02521m

initmat0064m 38s

ipfp00631m 46s

postbin00710s

postipfp0122m 42s

postbin01233s

postbin0231m 43s

postipfp0212m 59s

postbin0213s

initmat02214m 10s

ipfp02221m 40s

initmat0039m 44s

ipfp00313m 34s

codify29m 50s

initmat00155s

initmat01515m 27s

ngramsB43h 34m 27s

ngramsB242m 45s

initmat0124m 31s

initmat0044m 39s

initmat0169m 31s

ngramsA43h 20m 2s

initmat02414m 56s

initmat0106m 41s

initmat00714m 41s

ngramsA245m 14s

initmat0086m 43s

initmat0056m 47s

initmat0216m 30s

initmat0264m 17s

initmat0146m 37s

initmat02312m 40s

initmat0198m 43s

initmat01714m 6s

initmat0024m 41s

ngramsA343m 58s

ngramsB356m 28s

postbin0181m 12s

postbin0044m 20s

postipfp0193m 6s

postbin0193s

ipfp02129m 33s

postipfp0223m 7s

postbin0223s

postipfp0039m 26s

postbin0035m 13s

ipfp01523m 2s

ngramsB36m 12s

postipfp0205s

postbin0203s

postipfp0028m 42s

postbin00254s

ipfp01430m 12s

postipfp0142m 22s

ipfp01229m 17s

ipfp00516m 40s

postipfp00513m 26s

postbin0143s

ipfp00422m 9s

postbin0017m

postipfp0188m 51s

ipfp02424m 17s

postbin00610s

ipfp01027m

ipfp01716m 57s

postbin0082s

postipfp0046m 47s

postbin01319s

postipfp0113m

postbin0114s

ipfp00826m 54s

postipfp0062m 51s

postipfp02331s

filter1m 21s

ipfp02617m 19s

postbin0052m 10s

ipfp00225m 16s

postipfp0085m 43s

ipfp02323m 11s

ipfp01927m 30s

postipfp02614m 50s

postbin0261m 18s

Alberto Simoes Extraccao de Recursos de Traducao

Page 18: Translation Resources Extraction using Probabilistic Translation Dictionaries

Arquitectura adaptativa

Motivacao:

consultar recursos paralelos de forma eficiente:

corpora paralelosdicionarios probabilısticosn-gramas

reutilizacao de codigo;

API de ordem superior:

eficiente para a realizacao de experiencias;

Adaptavel

arquitectura cliente/servidor para distribuicao de cargas;

biblioteca dinamica para eficiencia de comunicacao;

Alberto Simoes Extraccao de Recursos de Traducao

Page 19: Translation Resources Extraction using Probabilistic Translation Dictionaries

Ordem Superior

CorporaParalelo

ConstruçãoStarDicts

DicionárioProbabilísticode Tradução

ExemplosTradução

TerminologiaBilingue

n-gramas

use NAT::Client;

$client=NAT::Client->new(crp => "EuroParl-PT-EN");

$client->iterate ( { Language => "PT" },

sub {

my %param = @_;

for my $trans (keys %{$param{trans}}) {

if ($param{trans}{$trans} > 0.2) {

my $word = $param{word};

my $concs = $client->conc(

{concordance => 1},

$word, $trans);

$stardict{$word}{$trans}=$concs->[0];

}

}

});

print StarDict($stardict);

Alberto Simoes Extraccao de Recursos de Traducao

Page 20: Translation Resources Extraction using Probabilistic Translation Dictionaries

Ordem Superior — Resultado

Alberto Simoes Extraccao de Recursos de Traducao

Page 21: Translation Resources Extraction using Probabilistic Translation Dictionaries

Progresso no Doutoramento

Example Based M

achine Translation

Get translation resources

Create Corpora

Process PC

Scalable tools

Extract Translation Dictionaries (PTDs)

Scalable tools

Different Kind of PTDs

Evaluate PTDs

Compare Corpora GenresExtract Translation Exam

ples

Scalable tools

Phrase-like examples

Examples using PTDs

Nouns phrases extraction

Compare different algorithms

Compare other approachesCompare other tools

ReleaseReleaseRelease

Integrate on Translation Systems

Text::Translator

Apertium

Alberto Simoes Extraccao de Recursos de Traducao

Page 22: Translation Resources Extraction using Probabilistic Translation Dictionaries

Dicionarios Probabilısticos de Traducao

O que sao?

dicionarios de traducao;

traducoes probabilısticas;

extraıdos automaticamente;

usam corpora paralelosalinhados a frase;

na sua maioria, traducoescorrectas;

mas nem sempre. . .

WA ⇀ (N×WB ⇀ [0..1])

Exemplo

europe =>count => 42853,trans =>

europa => 94.7 %europeus => 3.4 %europeu => 0.8 %europeia => 0.1 %

Alberto Simoes Extraccao de Recursos de Traducao

Page 23: Translation Resources Extraction using Probabilistic Translation Dictionaries

Avaliacao (2)

Analisar pares de palavra e traducao 〈wA, wB〉 tal que

P (wB ∈ T (wA)) > 0.2 ∧Occs (wA) > 50

Total Erradas Correctas

no de entradas 1000 150 (15%) 850 (85%)

Prob Ocur Prob Ocur Prob Ocur

valor mınimo 0.20 50 0.20 50 0.20 50valor maximo 0.99 435 374 0.82 24 022 0.99 435 374

media 0.48 2 476 0.36 1 097 0.50 2 719desvio padrao 0.21 16 894 0.14 2 720 0.21 18 278

EuroParl corpus, PT–EN;

Alberto Simoes Extraccao de Recursos de Traducao

Page 24: Translation Resources Extraction using Probabilistic Translation Dictionaries

Dicionarios Probabilısticos de Traducao: Conclusoes

Os PTDs:

nao podem ser vistos como dicionarios de traducaoconvencional;

podem ser transformados em dicionarios de traducaoconvencionais (usando filtragem e/ou outras heurısticas);

sao uteis para a traducao manual e automatica

sao uteis para a criacao/bootstraping de dicionarios manuais;

variam em qualidade, de acordo com os corpora (e generos)usados (Santos e Simoes, 2008);

Alberto Simoes Extraccao de Recursos de Traducao

Page 25: Translation Resources Extraction using Probabilistic Translation Dictionaries

Progresso no Doutoramento

Example Based M

achine Translation

Get translation resources

Create Corpora

Process PC

Scalable tools

Extract Translation Dictionaries (PTDs)

Scalable tools

Different Kind of PTDs

Evaluate PTDs

Compare Corpora GenresExtract Translation Exam

ples

Scalable tools

Phrase-like examples

Examples using PTDs

Nouns phrases extraction

Compare different algorithms

Compare other approachesCompare other tools

ReleaseReleaseRelease

Integrate on Translation Systems

Text::Translator

Apertium

Alberto Simoes Extraccao de Recursos de Traducao

Page 26: Translation Resources Extraction using Probabilistic Translation Dictionaries

Exemplos de Traducao

As Unidades de Traducao (de Memorias de Traducaoconvencionais):

sao uteis aos tradutores;mas tem reutilizacao reduzida;

Os Exemplos de Traducao sao:

segmentos de palavras e a respectiva traducao;(exemplos de traducao sao sub-segmentos de unidades detraducao)por serem mais pequenos tem grau de reutilizacao maior;

Duas abordagens de extraccao:

segmentacao com base na Hipotese das Palavras-Marca;

segmentacao com base em pontos de traducao forte (ancoras);

Alberto Simoes Extraccao de Recursos de Traducao

Page 27: Translation Resources Extraction using Probabilistic Translation Dictionaries

Hipotese das Palavras Marca — Alinhamento

o numero de segmentos nao e o mesmo entre lınguas;

e necessario realizar correspondencias;

usar os recursos disponıveis: PTDs;

this decision shall take effect as soon as possiblea presentedecisao produzefeitos

23.18 5.86 7.93

o maisrapidamente 0.00 76.41 83.10possıvel

Alberto Simoes Extraccao de Recursos de Traducao

Page 28: Translation Resources Extraction using Probabilistic Translation Dictionaries

Hipotese das Palavras Marca — Conclusoes

Marker Hypothesis permite segmentacao (do portugues, inglese outras lınguas) em segmentos logicos;

E possıvel o alinhamento destes segmentos para extraccao derelacionamentos bilingues;

Mais de 4 milhoes de segmentos 1:1 extraıdos;

2 milhoes de segmentos sao diferentes;

EuroParl corpus, PT–EN;

Alberto Simoes Extraccao de Recursos de Traducao

Page 29: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao por deteccao de ancoras

Criar matriz de alinhamento para cada unidade de traducao;

Preencher com uma medida de traducao mutua;

Encontrar pontos com relacionamento forte (ancoras);

dis

cuss

ion

about

alte

rnat

ive

sourc

es

of

finan

cing

for

the

euro

pea

n

radic

al

allia

nce

.

discussão 44 0 0 0 0 0 0 0 0 0 0 0

sobre 0 11 0 0 0 0 0 0 0 0 0 0

fontes 0 0 0 74 0 0 0 0 0 0 0 0

de 0 3 0 0 27 0 6 3 0 0 0 0

financiamento 0 0 0 0 0 56 0 0 0 0 0 0

alternativas 0 0 23 0 0 0 0 0 0 0 0 0

para 0 0 0 0 0 0 28 0 0 0 0 0

a 0 1 0 0 1 0 4 33 0 0 0 0

aliança 0 0 0 0 0 0 0 0 0 0 65 0

radical 0 0 0 0 0 0 0 0 0 80 0 0

europeia 0 0 0 0 0 0 0 0 59 0 0 0

. 0 0 0 0 0 0 0 0 0 0 0 80

MAS

Alberto Simoes Extraccao de Recursos de Traducao

Page 30: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao por deteccao de ancoras: uso de padroes

A ordem na traducao muda! Felizmente,

e possıvel isolar grande parte dos casos;

e possıvel definir estas trocas com base em padroes;

estes padroes ajudam na construcao da diagonal principal;

estes padroes definem (maioritariamente) segmentos nominais;

pon

to

de

vist

a

neu

tro

neutral X

point X

of ∆

view X

[POV] P "de" V N = N P "of" V

Alberto Simoes Extraccao de Recursos de Traducao

Page 31: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao por deteccao de ancoras: uso de padroes

dis

cuss

ion

about

alte

rnat

ive

sourc

es

of

finan

cing

for

the

euro

pea

n

radic

al

allia

nce

.

discussão 44 0 0 0 0 0 0 0 0 0 0 0

sobre 0 11 0 0 0 0 0 0 0 0 0 0

fontes 0 0 0 74 0 0 0 0 0 0 0 0

de 0 3 0 0 27 0 6 3 0 0 0 0

financiamento 0 0 0 0 0 56 0 0 0 0 0 0

alternativas 0 0 23 0 0 0 0 0 0 0 0 0

para 0 0 0 0 0 0 28 0 0 0 0 0

a 0 1 0 0 1 0 4 33 0 0 0 0

aliança 0 0 0 0 0 0 0 0 0 0 65 0

radical 0 0 0 0 0 0 0 0 0 80 0 0

europeia 0 0 0 0 0 0 0 0 59 0 0 0

. 0 0 0 0 0 0 0 0 0 0 0 80

discussion about --- discuss~ao sobre

alternative sources of financing --- fontes de financiamento alternativas

for the --- para a

european radical alliance --- alianca radical europeia

for the european radical alliance --- para a alianca radical europeia

Alberto Simoes Extraccao de Recursos de Traducao

Page 32: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao de Exemplos — Conclusoes

extraccao usando apenas ancoras e relevante para lınguasproximas;(como o par portugues–espanhol)

para lınguas mais afastadas, o uso de padroes e indispensavel;

marcas vs ancoras:

estruturas (e portanto, finalidades) diferentes;ambas relevantes na obtencao de exemplos;

Alberto Simoes Extraccao de Recursos de Traducao

Page 33: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao de Nominais

Especificando com cuidado padroes de alinhamento, e possıvelextrair de forma automatica candidatos a terminologia bilingue degrande qualidade.

Restricoes

[ABBA] A B[CAT<-adj] = B[CAT<-adj] A

[ABBA] A B.is_adj = B.is_adj A%%sub is_adj { ... }

Inferencia

[ABBA] A[CAT->noun] B[CAT<-adj] = B[CAT<-adj] A[CAT->noun]

Alberto Simoes Extraccao de Recursos de Traducao

Page 34: Translation Resources Extraction using Probabilistic Translation Dictionaries

Qualidade de nominais

39214 = comunidades europeias =!ABBA!= european communities

32850 = jornal oficial =!ABBA!= official journal

32832 = parlamento europeu =!ABBA!= european parliament

32730 = uni~ao europeia =!ABBA!= european union

31650 = comunidade europeia =!ABBA!= european community

15602 = paıses terceiros =!ABBA!= third countries

[...]

3614 = livro verde =!ABBA!= green paper

3520 = saude publica =!ABBA!= public health

3434 = direito comunitario =!ABBA!= community law

3243 = conselho europeu =!ABBA!= european council

3227 = nıvel comunitario =!ABBA!= community level

3179 = comite permanente =!ABBA!= standing committee

3038 = nomenclatura combinada =!ABBA!= combined nomenclature

[...]

1 = org~aos orcamentais =!ABBA!= budgetary organs

1 = org~aos relevantes =!ABBA!= relevant bodies

1 = ovulos de equino =!A!= equine ova

1 = oxido de albendazole =!A!= albendazole oxide

1 = oxido de cadmio =!A!= cadmium oxide

1 = oxido de estireno =!A!= styrene oxide

Alberto Simoes Extraccao de Recursos de Traducao

Page 35: Translation Resources Extraction using Probabilistic Translation Dictionaries

Extraccao de Nominais — Avaliacao

103 617 exemplos diferentes...

77 497 ex. com a regra A B = B A (938/2/1) (86%)

12 694 ex. com a regra A ”de” B = B A (204/2/1) (95%)

7 700 ex. com a regra A B C = C B A (40/1/1) (93%)

3 336 ex. com a regra H ”de” D H = H D I (21/1/1) (100%)

1 466 ex. com a regra A B C = C A B (4/1/1) (40%)

564 ex. com a regra P ”de” V N = N P ”of” V (6/1/1) (98%)

360 ex. com a regra P ”de” T ”de” F = F T P (3/1/1) (96%)

Alberto Simoes Extraccao de Recursos de Traducao

Page 36: Translation Resources Extraction using Probabilistic Translation Dictionaries

Algumas Contribuicoes

abordagens escalaveis para:

extraccao de dicionarios probabilısticos de traducao;extraccao de exemplos de traducao;extraccao de quantidades de segmentos nominais;

diferentes abordagens na extraccao de PTDs;

disponibilizacao de recursos (ecologia);

NATools:

open-source, escalavel;usavel como um todo ou em partes;nat-server, nat-create, nat-examplesExtractor,nat-sentenceAligner, nat-codify, nat-grep, nat-ngrams,nat-StarDict, . . .

Makefile::Parallel

Alberto Simoes Extraccao de Recursos de Traducao

Page 37: Translation Resources Extraction using Probabilistic Translation Dictionaries

http://natools.sf.net/

http://natura.di.uminho.pt/

http://search.cpan.org/dist/Makefile-Parallel/

Alberto Simoes Extraccao de Recursos de Traducao