Ulanov csc-nlp-11

42
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Обработка текстов на естественном языке Александр Уланов Лекция 1 1. Введение в статистический машинный перевод

description

 

Transcript of Ulanov csc-nlp-11

Page 1: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языкеАлександр Уланов

Лекция 11. Введение в статистический машинный

перевод

Page 2: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2

Оглавление курса

1. Введение. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Классификация текстов

4. Практика I

5. Кластеризация текстов

6. Разбор текстов по частям речи. Поиск именованных сущностей

7. Извлечение отношений из текстов

8. Практика II

9. Поиск дубликатов в тексте

10. Анализ мнений

11. Введение в статистический машинный перевод

12. Практика III

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме (ссылки на слайдах), видеолекции Stanford и Coursera (Manning)

Page 3: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3

Оглавление

Подход к переводу

Оценка качества перевода

Подготовка корпуса, выравнивание

Модели, основанные на словах

Модели, основанные на фразах

Другие модели

Декодирование

Эффективность перевода для некоторых пар языков

Ресурсы

Page 4: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4

Введение

Предыстория

• Warren Weaver впервые описал в 1949, как может происходить перевод при помощи

компьютера

• Отчет ALPAC’66 про бесперспективность пост-редактирование автоматического перевода

• Systran`68 – русско-английский переводчик на правилах для ВМФ США

• Trados в 90е – автоматизация процесса человеческого перевода

• Создание промежуточного языка (interlingua), чтобы описывать знания независимо от языка

• Конец 80х – подходы на основе примеров перевода, начало 90х – стат модели IBM

• Конец 90х – на семинаре John Hopkins Uni реализуют модели IBM

• Начало 2000х – DARPA финансирует автоматический перевод (с арабского)

• Современные коммерческие системы основаны на статистических моделях

Page 5: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5

Введение

Машинный перевод

Machine translation

• Дано:

• Найти перевод на русский язык (чаще – на английский)

• Довольно сложная задача!

Page 6: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6

Введение

Как будем переводить?

Со словарем (при помощи словаря и правил)

• Правила грамматики и морфологии

• Выбор правильного смысла слова

При помощи примеров переводов

• Тексты вместе с их переводом на другой язык (параллельные корпусы - parallel corpora)

• Доступно большое количество данных

• При большом наборе текстов и в узкой предметной области можно получить достаточно

качественный перевод (т.е. частично выполненный человеком)

• Проблема недостаточности данных

• Проблемы грамматики и морфологии

Page 7: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7

Статистический машинный перевод

Параллельные тексты

(англо-русские)Английский текст

Модель перевода Языковая модель

Статистический анализ

Декодирование

Статистический анализ

Русский

текст

Английский

текст

Обучение

Перевод/Тест

𝒂𝒓𝒈𝒎𝒂𝒙𝒆𝒑 𝒆|𝒇 = 𝒂𝒓𝒈𝒎𝒂𝒙𝒆𝒑 𝒇|𝒆 𝒑 𝒆

на словах

на фразах

на синт.

деревьях

«канал с шумами»

𝒆 – English

𝒇 – foreign

модель переводадекодер

языковая модель

Page 8: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Оценка качества перевода

Page 9: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9

Оценка качества перевода

Ручная оценка

• Слишком долго

Автоматическая оценка

• BLEU, TER (Translation Edit Rate), METEOR, Word Error Rate, Precision, Recall

• BLEU – a Bilingual Evaluation Understudy

– 𝐵𝐿𝐸𝑈4 = 𝑚𝑖𝑛 1,длина перевода

длина эталонного перевода 𝑖=1

4 𝑃𝑖, где 𝑃𝑖 =Кол−во совпавших 𝑖−грамм

Кол−во 𝑖−грамм

– Вычисляется по всему корпусу, а не по предложениям

Как упоительны в России вечера

Эталон So delightful are evenings in Russia

Перевод G As a delightful evening in Russia

Перевод P As evenings are delightful in Russia

Перевод Y As упоительны in Russia PM

𝑃1 =2

6, 𝑃2 =

1

5, 𝑃3 = 0

𝐵𝐿𝐸𝑈4 = 0

𝐵𝐿𝐸𝑈2 =6

6∙2

6∙1

5≈ 7%

Page 10: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10

Особенности BLEU

Достоинства BLEU

• Есть положительная корреляция с оценкой перевода

человеком (не бесспорно)

Недостатки BLEU

• Не учитывает важность слов

• Не учитывает грамматическую корректность, т.к.

работает на уровне фраз из 4-х слов

• Значение BLEU не имеет смысла, имеет смысл только

разница значений

• BLEU человеческих переводов не сильно выше

автоматических, хотя сам перевод лучше

*George Doddington, NIST

**2005 NIST evaluations on Arabic–English

(*)

(**)

(графики повернуты

относительно друг друга)

Page 11: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Подготовка данных

Page 12: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12

Выравнивание текстов по предложениям

Sentence alignment

Обычно в тексте с его переводом нет точного соответствия по предложениям, более

того, тексты часто просто об одном и том же на разных языках (comparable)

• Алгоритмы выравнивания

– Без учителя

– Основаны на динамическом программировании

– Используется предположение, что предложения монотонно упорядочены

– Пространство поиска уменьшают при помощи эвристик

• Наиболее известные:

– Gale and Church algorithm [Gale and Church, 93]

– Microsoft's Bilingual Sentence Aligner (MBA) [Moore, 2002]

– Hunalign [Varga et al, 2005]

– Gargantua [Braun and Fraser, 2010]

– Bleualign [Sennrich and Volk, 2010]

Abdul-Rauf, Sadaf, et al. "Extrinsic evaluation of sentence

alignment systems."Proceedings of LREC workshop on

Creating Cross-language Resources for Disconnected

Languages and Styles, CREDISLAS. 2012.

comparable

parallel

aligned

Page 13: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13

Выравнивание текстов по предложениям

[Gale & Church 1993]

• Вычисление значения для каждой пары предложений на основе отношения их длины и

дисперсии отношения

• Динамическое программирование для поиска максимального правдоподобия данным

MBA [Moore 2002]

• На подмножестве выравненных при помощи длины предложений обучается

модифицированная модель IBM (далее на слайдах)

• Полученная таблица переводов используется для выравнивания остального

Hunalign [Varga et al, 2005]

• Аналогично MBA, только на основе внешних словарей

Page 14: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Модели перевода, основанные на словах

Page 15: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15

Модели, основанные на словах

Word-based models

Как перевести слово?

• Посмотреть в словаре

• Много вариантов

• Разная вероятность перевода

Как составить словарь

• На основе параллельных текстов

• Собрать статистику переводов слов

• Для этого надо сделать выравнивание (alignment) по словам

Трудности

• В разных языках разный порядок слов

• Некоторые вспомогательные слова могут не иметь перевода и наоборот

• Некоторые слова переводятся в несколько слов сразу и наоборот

Как упоительны в России вечера

So delightful are evenings in Russia

0

𝑎 ∶ 1 → 1, 2 → 2, 3 → 0, 4 → 5, 5 → 3, 6 → 4

Page 16: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16

Модели, основанные на словах

Word-based models

IBM model 1 [Brown et al, 1993]

• Используются только лексическая вероятность перевода

– Для предложения 𝑓 = 𝑓1, … , 𝑓𝑛 длиной 𝑛

– в английское предложение 𝑒 = 𝑒1, … , 𝑒𝑘 длиной 𝑘,

– при выравнивании каждого английского слова 𝑒𝑗 к слову 𝑓𝑖 в соответствии с функцией

выравнивания 𝑎 ∶ 𝑗 → 𝑖 ,

– вероятность перевода 𝑝 𝑒, 𝑎|𝑓 =𝜖

𝑛+1 𝑘 𝑗=1

𝑘 𝑡 𝑒𝑗|𝑓𝑎 𝑗

– дробь – для нормализации, 𝜖 – константа, 𝑡 – вероятность перевода слова, +1 – учет

«нулевого» слова

• Как найти функцию выравнивания?

Brown, Peter F., et al. "The mathematics of statistical machine translation: Parameter

estimation." Computational linguistics 19.2 (1993): 263-311.

Page 17: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17

Модели, основанные на словах

Expectation-maximization algorithm

EM-алгоритм

• Инициализировать параметры (равномерно)

• Присвоить вероятности скрытым переменным

• Пересчитать параметры модели на основе данных

• Перейти к шагу 2

EM-алгоритм для IBM модели 1

– Expectation

• Скрытые переменные – выравнивание

• Присвоить вероятности всем возможным

выравниваниям

– Maximization

• Посчитать кол-во возможных выравниваний в

данных и пересчитать вероятности

𝑝 𝑎|𝐞, 𝐟 =𝑝 𝐞, 𝑎|𝐟

𝑝 𝑒|𝐟=

𝑗=1

𝑘𝑡 𝑒𝑗|𝑓𝑎 𝑗

𝑖=0𝑛 𝑡 𝑒𝑗|𝑓𝑗

𝑐 𝑒|𝑓; 𝐞, 𝐟 =𝑡 𝑒|𝑓

𝑖=0𝑛 𝑡 𝑒|𝑓𝑖

𝑗=1

𝑘

𝛿 𝑒, 𝑒𝑗

𝑖=0

𝑛

𝛿 𝑓, 𝑓𝑖

𝑡 𝑒|𝑓; 𝐞, 𝐟 = 𝐞,𝐟 𝑐 𝑒|𝑓; 𝐞, 𝐟

𝑒 𝐞,𝐟 𝑐 𝑒|𝑓; 𝐞, 𝐟

chain rule

Page 18: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.18

Пример EM для IBM model 1

этот дом этот мяч мой мяч

this house this ball my ball

e f Иниц. Ит. 1 2 3 N

this этот 0.25 0.5 0.6364 0.7479... 1house этот 0.25 0.25 0.1818 0.1208... 0

ball этот 0.25 0.25 0.1818 0.1313... 0this мяч 0.25 0.25 0.1818 0.1208... 0

ball мяч 0.25 0.5 0.6364 0.7479... 1my мяч 0.25 0.25 0.1818 0.1313... 0ball мой 0.25 0.5 0.4286 0.3466... 0my мой 0.25 0.5 0.5714 0.6534... 1this дом 0.25 0.5 0.4286 0.3466... 0house дом 0.25 0.5 0.5714 0.6534... 1

Вероятность перевода f в e

𝑝 𝑎|𝐞, 𝐟 =

𝑗=1

𝑘𝑡 𝑒𝑗|𝑓𝑎 𝑗

𝑖=0𝑛 𝑡 𝑒𝑗|𝑓𝑗

𝑐 𝑒|𝑓; 𝐞, 𝐟 =𝑡 𝑒|𝑓

𝑖=0𝑛 𝑡 𝑒|𝑓𝑖

𝑗=1

𝑘

𝛿 𝑒, 𝑒𝑗

𝑖=0

𝑛

𝛿 𝑓, 𝑓𝑖

𝑡 𝑒|𝑓; 𝐞, 𝐟 = 𝐞,𝐟 𝑐 𝑒|𝑓; 𝐞, 𝐟

𝑒 𝐞,𝐟 𝑐 𝑒|𝑓; 𝐞, 𝐟

Page 19: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19

Пример перевода для IBM model 1

Англ Рус t

was был 0.759358

a был 0.080214

NULL был 0.032086

been был 0.016043

were был 0.016043

would был 0.010695

… … …

Англ Рус t

here здесь 0.492647

is здесь 0.183824

there здесь 0.088235

are здесь 0.036765

this здесь 0.029412

NULL здесь 0.014706

… … …

Англ Рус t

he он 0.762153

it он 0.15625

NULL он 0.03125

He он 0.005208

nickname он 0.005208

, он 0.003472

… … …

Он был здесь

𝑝 𝑒, 𝑎|𝑓 =𝜖

43 ∙ 𝑡 ℎ𝑒|он ∙ 𝑡 𝑤𝑎𝑠|был ∙ 𝑡 ℎ𝑒𝑟𝑒|здесь =𝜖

43 ∙ 0.762153 ∙ 0.759358 ∙ 0.492647≈0.00445𝜖

Вероятности посчитаты при помощи Giza++ на корпусе Romip-2013

Page 20: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20

Другие модели IBM

• Только модель 1 обеспечивает глобальный максимум

– Остальные модели обучаются на базе 1й

• Для моделей выше 2й используется сэмплирование, так как перебор слишком велик

Модель Особенности

IBM Model 1 лексический перевод

IBM Model 2 +изменение порядка перевода слов (перестановка)

IBM Model 3 +вставка слов(а)

IBM Model 4 относительное изменение порядка перевода слов

IBM Model 5 фикс того, что слова могут быть вставлены в одну и ту же позицию

Page 21: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Модели перевода, основанные на фразах

Page 22: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22

Модели, основанные фразах

Phrase-based models

Переводить по несколько слов сразу («фразы» не в лингвистическом смысле)

Как составить словарь фраз

• На основе моделей IBM

Особенности

• Не нужно делать вставку и удаление слов

• При переводе сохраняется контекст, а следовательно, смысл

• Изменение порядка все равно нужно

На Новый Год мне подарили самоучитель кипячения для чайников

I was given with a boiling tutorial for dummies on New Year’s eve

Page 23: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23

Модель, основанная на фразах

Phrase-based model

Простая фразовая модель [Och and Weber 1998]

• Модель канала с шумом

– 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝𝐿𝑀 𝑒

• Предложение 𝑓 разбивается на 𝐼 фраз 𝑓1𝐼 = 𝑓1, … 𝑓𝐼

– 𝑝 𝑓1𝐼 |𝑒1

𝐼 = 𝑖=1𝐼 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1

– 𝜙 – вероятность перевода фразы,

– 𝑑 – вероятность изменения порядка перевода, пропорциональна экспоненте

• Как найти переводы фраз?

Рус Англ p

что это that it is 0.229167

, что это that it is 0.1875

что она that it is 0.0625

, что that it is 0.041667

, что она that it is 0.041667

, то that it is 0.020833

… …

Page 24: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24

Переводы фраз

Алгоритм

• Построить выравнивание по словам (например, по IBM)

• Собрать все фразы, согласующиеся с выравниванием по словам,

т.е. фразы должны включать все точки выравнивания

содержащихся в них слов в обоих языках

• Посчитать вероятности на основе частот:

Пример

• (Как, So), (упоительны, are delightful), (вечера, evenings), (в, in),

(России, Russia)

• (Как упоительны, So delightful are), (в России, in Russia), (в России

вечера, evenings in Russia)

• (упоительны в России вечера, delightful are evenings in Russia)

• (Как упоительны в России вечера, So delightful are evenings in

Russia)

Как

упои

тел

ьны

в Росси

и

вечера

So

delightful

are

evenings

in

Russia

𝜙 𝑓| 𝑒 =𝑐𝑜𝑢𝑛𝑡 𝑒| 𝑓

𝑓𝑖

𝑐𝑜𝑢𝑛𝑡 𝑒,𝑓𝑖

Page 25: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25

Обобщение модели перевода

Логарифмические модели

Рассмотрим нашу модель

• 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝 𝑒

• В случае фразовой модели: 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝑖=1𝐼 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑝𝐿𝑀 𝑒

• Или 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝑖=1𝐼 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑖=1

𝑒 𝑝𝐿𝑀 𝑒𝑖|𝑒1 …𝑒𝑖−1

• Три состовляющих: перевод, перестановка и языковая модель. Введем веса для каждой

• 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝑖=1𝐼 𝜙 𝑓𝑖 |𝑒𝑖

𝝀𝝓𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝝀𝒅 𝑖=1

𝑒 𝑝𝐿𝑀 𝑒𝑖|𝑒1 …𝑒𝑖−1𝝀𝑳𝑴

• Можно сделать логарифмическую модель

– 𝑝 𝑥 = 𝑒𝑥𝑝 𝑖=1𝑛 𝜆𝑖ℎ𝑖 𝑥

– 𝑝 𝑒, 𝑎|𝑓 = 𝑒𝑥𝑝 𝜆𝜙 𝑖=1𝐼 log𝜙 𝑓𝑖 |𝑒𝑖 + 𝜆𝑑 𝑖=1

𝐼 log 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 +

Page 26: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26

Факторизованные модели

Factored models

Позволяют включить в модель дополнительную информацию

на уровне слов (например, как дополнительный член лог.

модели)

• Используются для морфологически богатых языков

Процесс генерации перевода

• Перевод леммы

• Перевод морфологии и частей речи

• Образование требуемых словоформ в целевом языке на основе

леммы, морфологии и части речи

Особенности

• Модель для ∀ фактора строится аналогично подходу с фразами

• Модель словообразования

• Эффективна, если делать модель ЧР и применять

словообразование только к неизвестным формам

слово

лемма

часть речи

морфология

класс слова

слово

лемма

часть речи

морфология

класс слова

Вход Выход

WMT07 De-En, Koehn 2008

Page 27: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Другие модели перевода

Page 28: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28

Модели на основе синтаксических деревьев

Syntax & tree based models

Позволяют включить синтаксическую информацию

• Перестановка слов на основе синтаксиса

• Более правильное использование вспомогательных слов

• Грамматически более верный перевод

Особенности

• Эффективность сравнима с фразовыми моделями

• Хорошая перестановка глаголов в немецком, хотя для этого можно использовать правила

• Нужны хорошие синтаксические парсеры

• Вычислительно сложные

Page 29: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29

Пример [Yamada and Knight, 2001]

Page 30: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Декодирование

Page 31: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31

Декодирование

Decoding

Найти

• 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑒|𝑓 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒𝑝 𝑓|𝑒 𝑝 𝑒

• В случае фразовой модели: 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑒 𝑖=1𝐼 𝜙 𝑓𝑖 |𝑒𝑖 𝑑 𝑠𝑡𝑎𝑟𝑡𝑖 − 𝑒𝑛𝑑𝑖−1 − 1 𝑝𝐿𝑀 𝑒

Решение

• NP-сложная проблема [Knight, 1999]

• Предлагается ряд эвристических методов

Подход к переводу

• Перевод происходит слева направо

• Выбирается следующая фраза и ее перевод, затем вычисляются частичные значения для

частичного перевода

• Учитывается вероятность перевода, перестановки и языковой модели

Page 32: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.32

ДекодированиеРаскрытие гипотезы

• Начинаем с пустой гипотезы

(пустой перевод)

• Выбираем фразу для

перевода, считаем

вероятность

So

0.0560

As

0.421

How

0.303

delightful

are

xxx

evenings

xxx

in Russia

0.0015

delightful evening in Russia

0.0012

evenings

xxx

are

delightful

xxx

PM

xxx

delightful

xxx

in Russia

0.0011

in Russia

0.0008

Как упоительны в России вечера

Page 33: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.33

Декодирование

Уменьшение вычислительной сложности

Рекомбинация гипотез

• Хранить только наиболее вероятный частичный перевод среди одинаковых

• Хранить только наиболее вероятный частичный перевод среди переводов одних и тех же

частей предложения

Page 34: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.34

Декодирование

Уменьшение вычислительной сложности

Стек гипотез

• Складывать гипотезы в стеки по кол-ву переведенных слов

– O(размер стека*кол-во возможных переводов*длина предложения)~O(размер стека*длина

предложения2)

• Ограничение на размер стека (histogram pruning) как только стек переполняется – убирать

наименее вероятную гипотезу

Предсказуемая сложность

• Ограничение по величине на которую самая плохая гипотеза может быть хуже самой

хорошей (beam search)

Ограничение перестановок

• Не больше нескольких слов

– O(размер стека*длина предложения)

Уместно также учитывать оценку стоимости перевода оставшихся фраз (future cost

estimation)

Page 35: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Эффективность машинного перевода

Page 36: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.36

Эффективность машинного перевода*

Целевой языкИ

схо

дн

ый

язы

к

Danish 21.47 18.49 21.12 28.57 14.24 28.79 22.22 24.32 26.49 28.33

20.51 Dutch 18.39 17.49 23.01 10.34 24.67 20.07 20.71 22.95 19.03

22.35 23.4 German 20.75 25.36 11.88 27.75 21.36 23.28 25.49 20.51

22.79 20.02 17.42 Greek 27.28 11.44 32.15 26.84 27.67 31.26 21.23

25.24 21.02 17.64 23.23 English 13 31.16 25.39 27.1 30.16 24.83

20.02 17.09 14.57 18.2 21.86 Finnish 22.49 18.39 19.14 21.16 18.85

23.73 21.13 18.54 26.13 30 12.63 French 32.48 35.37 38.47 22.68

21.47 20.07 16.92 24.83 27.89 11.08 36.09 Italian 31.2 34.04 20.26

23.27 20.23 18.27 26.46 30.11 11.99 39.04 32.07 Portug. 37.95 21.96

24.1 21.42 18.29 28.38 30.51 12.57 40.27 32.31 35.92 Spanish 23.9

30.35 21.94 18.97 22.86 30.2 15.37 29.77 23.94 25.95 28.66 Swedish

*BLEU, с ипользованием корпусов Europarl, по данным сайта http://www.statmt.org/matrix/

Page 37: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.37

Эффективность машинного перевода

WMT-2013 [Bojar et al. WMT 2013]

• C английского на русский победил PROMT

• С русского на английский – open-source синтаксич. модель

• Фразовые системы на базе Moses - с небольшим отрывом

РОМИП-2013 (только англо-русский) [Braslavski et al. 2013 Dialog]

• Четыре онлайн-системы. OS2 – ПРОМТ (признались на конференции)

• ABBYY на первом месте среди не онлайн систем

• Moses с большим отрывом (наша система)

WMT-2013 Целевой язык

Исходный

язык

Чешский 27.1 16.2

19.2 Английский 19.8

14.4 24.6 Русский

OS1 OS2 OS3 OS4 ABBYY P2 (HP)

15 14.1 13.3 12.4 15.7 11.2

*все результаты в BLEU

Page 38: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.38

Словарная дистанция между языками

Lexical Distance Among the Languages of Europe (Teresa Elms, 2008). Данные для графа взяты из К. Н. Тищенко

(1999), Метатеория языкознания

Page 39: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.39

Ресурсы

Сайт www.statmt.org

• Ссылки на программы, корпуса и конференции. Руководство по Moses

Параллельные корпусы с английским

• Europarl - европейские языки (>10M предложений)

• UN - арабский, китайский, русский (~10M предложений)

• Много других: http://www.statmt.org/moses/?n=Moses.LinksToCorpora, http://opus.lingfil.uu.se/

Основные программы

• HunAlign (С++): выравниватель по предложениям

• Moses : декодер (Perl & C++) на основе фраз

– Полный пакет вспомогательных средств типа токенизатора и скрипта для BLEU

– Интеграция со всем необходимым: Giza++(IBM модели), IRSTLM (языковая модель), сервер

• Joshua: декодер (Java) на основе синтаксиса

• Phrasal, cdec, Jane, Pharaoh

Page 40: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.40

Параллельные корпусы с русским языком*

Предложения Слова (RU) Слова (EN)

United Nations (UN) 11.7 285.6 248.1

Subtitles 17.1 106.8 91.3

UMC (news) 0.97 2.1 2.3

Yandex (Romip 13 & WMT-13) 1 24 26

News-commentary (WMT-13) 0.15 3.8 4

Common-crawl (WMT-13) 0.88 21 21.5

Wikipedia (WMT-13) 0.52 1.2 1.2

*В свободном доступе на январь 2014, значения в миллионах

Page 41: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.41

Содержание

Подход к переводу

Оценка качества перевода

Подготовка корпуса, выравнивание

Модели, основанные на словах

Модели, основанные на фразах

Другие модели

Декодирование

Эффективность перевода для некоторых пар языков

Ресурсы

Page 42: Ulanov csc-nlp-11

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.42

Спасибо!

[email protected]