Khomitsevich

16

Click here to load reader

Transcript of Khomitsevich

Page 1: Khomitsevich

СНЯТИЕ ОМОНИМИИ И НОРМАЛИЗАЦИЯ ТЕКСТА В СИСТЕМЕ СИНТЕЗА РУССКОЙ РЕЧИ

О.Г. Хомицевич (ЦРТ)

[email protected]

AINL: Искусственный Интеллект,

Естественный Язык

26 мая 2012 года, Санкт-Петербург

Page 2: Khomitsevich

2

Синтез речи по тексту

Этапы обработки текста:

• Нормализация текста:

• Деление на слова, предложения, выделение знаков

препинания…;

• Расшифровка специальных обозначений;

• Извлечение информации о слове из словаря;

• Снятие омонимии (омографии);

• Деление на синтагмы, интонационное оформление;

• Транскрипция;

• Озвучивание.

Page 3: Khomitsevich

3

Подготовка текста к синтезу речи

Текст, поступающий на вход программы синтеза речи:

• Фрагмент крупного метеорита взорвался на

высоте 5-10 км утром 30 июня 1908 года.

• Необходимо привести текст к «читабельному» виду;

• Подготовка:

• Приведение цифр к словесному виду;

• Расшифровка сокращений;

• Определение места ударения в слове;

• И т.п.

Page 4: Khomitsevich

4

Подготовка текста к синтезу речи

Неоднозначность при обработке текста:

• Фрагмент крупного метеорита взорвался на

высоте 5-10 км утром 30 июня 1908 года.

• Выбор разряда числительного:

• 5-10 км

• 5-10 июня

• 5-10 этажей??

• Выбор формы числительного, сокращения:

• на высоте 5-10 км

• составляет 5-10 км

• в 5-10 км от…

• Выбор места ударения в слове:

• года, года;

• И т.п.

Page 5: Khomitsevich

5

Способы решения проблемы обработки текста

Статистические методы

• Проблема: нужен корпус большого объема, который

содержал бы различные обозначения и их

расшифровки, снятую омонимию и т.п…

Синтаксический и семантический анализ текста

• Проблема: может занимать много ресурсов,

зачастую требует предварительного снятия

омонимии…

Page 6: Khomitsevich

6

Способы решения проблемы обработки текста

Частичный (локальный) анализ текста хорошо подходит для задач

синтеза речи:

• Анализируется окружение конкретного проблемного слова;

• Контекстные правила с интуитивно понятным синтаксисом

хранятся в отдельных файлах, а не в коде программы;

• Проблема: остаются сложные случаи, для анализа которых

требуется синтаксическая/семантическая обработка всего

предложения.

Page 7: Khomitsevich

7

Расшифровка сокращений и специальных знаков

Виды обозначений в естественных текстах:

• Сокращения и условные обозначения из различных

элементов: км., и.о., мск, Гб, м/с, м2, C#...

• Тот факт, что многие сокращения пишутся с точкой, создает

проблемы для алгоритма деления на предложения;

• Многие сокращения являются неоднозначными: м=«метр»

или «метро», Кб или КБ, им.=местоимение или «имени»…

• Римские цифры должны быть переведены в арабские.

• Специальные знаки: %, °, $, *, №…

• А еще есть аббревиатуры, латиница, смайлики…

Page 8: Khomitsevich

8

Расшифровка сокращений и специальных знаков

Расшифровка осуществляется при помощи анализа

ближайшего контекста слова:

• Наличие числительного слева: 1 км, 2 км, 12 км, 22 км;

• Наличие предлога слева, в том числе перед

числительным (более 1 км, к 1 км…);

• Наличие рядом слова, ключевого для согласования:

2012 г., г. Псков, ст. 105 УК РФ, ст. Москва-

Сортировочная…

Page 9: Khomitsevich

9

Расшифровка цифровых записей

Расшифровка осуществляется в несколько этапов:

• Выделение специальных форматов (дата, время,

телефон…);

• Определение разряда числительного (количественное

или порядковое);

• Определение формы числительного (падеж, род).

Page 10: Khomitsevich

10

Расшифровка цифровых записей

• Выделение специальных форматов:

• Анализ вида записи: ХХХ-ХХ-ХХ, ХХ:ХХ; 13-30 vs 60-65.

• Поиск ключевых слов, например: телефон, мобильный, по

московскому времени…

• Анализ контекста для количественных и порядковых

числительных:

• Поиск слов, сочетающихся по преимуществу с порядковыми

числительными (год…).

• Наличие предлога и т.п. слева: к 10, достигло 10…

• Наличие согласованного слова справа: 10 пальцев, 10

пальцами, на 23 московских театральных площадках, 10 этаж,

62 день…

Page 11: Khomitsevich

11

Снятие омонимии (омографии)

Виды омонимов:

• Для синтеза речи наиболее важны омонимы, различающиеся

произношением (омографы);

• Может различаться ударение и/или «ѐ»/«е»;

• Омонимы могут иметь одинаковые грамматические признаки:

замок – замок;

• Либо различаться грамматическими характеристиками:

• Омонимичные формы внутри одной парадигмы

(например, род.п.ед.ч. – им.п.мн.ч.: облака-облака,

страны-страны…)

• Омонимичные формы разных парадигм (например,

существительное-инфинитив: вести-вести, пропасть-

пропасть).

• Омонимы могут существенно различаться по частотности (уха-

уха, сорока-сорока, кредит-кредит, мою-мою…)

Page 12: Khomitsevich

12

Снятие омонимии (омографии)

Разрешение омонимии требует более глубокого анализа контекста:

• На уровне индивидуальных слов:

• анализ слов непосредственно рядом с текущим: скрыто

за семью замками, в четырех стенах;

• поиск ключевых слов в предложении: Дверь была

заперта на необычный замок;

• На уровне классов словоформ – анализ грамматического

окружения: поиск согласованных слов в предложении.

• Грамматические правила, увеличивающие вес

словоформы в зависимости от ее окружения.

• Пример правила: HW(psp={1,2}) & WL:1(0,

psp={3,7} & Agreement(%0,+)) -> +40

Page 13: Khomitsevich

13

Статистика для программы синтеза речи VitalVoice

Снятие омонимии:

Расшифровка нестандартных обозначений:

Слов в тексте

Всего обозначений

Ошибок % Ошибок %Правильно

34235 1066 50 4,69 95,31

Слов в тексте

Всего омографов

Ошибок % Ошибок %Правильно

37955 2837 113 3,98 96,02

Page 14: Khomitsevich

14

Примеры чтения

Синтез речи “VitalVoice” читает предложения:

• Поставки "Газпрома" в Европу в январе-апреле сократились на 12% и

составили 51 млрд кубометров газа против 58 млрд годом ранее.

• Роскосмос заявил о своем намерении до 2030 года высадить

российских космонавтов на поверхность спутника Земли.

• Нюре все нравилось: доктора, сестры, еда, ее кровать, третья от окна,

и окно с видом на набережную.

• В 40-е годы XIX века, чтобы стать популярным автором, нередко

достаточно было отнести рукопись одному из ведущих критиков.

• Встанешь утром, часа в четыре, выйдешь в сад - роса блестит на

цветах, шумят птицы и насекомые, на небе ни одного облачка.

• Паритет в 12-матчевом противостоянии чемпиона и претендента

остается незыблемым - 2:2.

Page 15: Khomitsevich

15

Проблемы

Случаи, плохо поддающиеся обработке:

• Требуется разбор всего предложения (клаузы): • выбирать между 154 млрд кубометров по более низкой цене и

150 млрд по более высокой; • Обама намерен расследовать потерю банком J.P.Morgan Chase 2

млрд долларов;• По сторонам дома, направо и налево, стояли два одинаковых

флигеля; у одного окна были забиты досками, около другого, с открытыми окнами, висело на веревке белье и ходили телята.

• Ошибочная или нестандартная запись: • в 300-стах метрах от места столкновения; • на уровне 437 доллара за тысячу кубометров;

• Формы записи, предназначенные для чтения «глазами»:• ГОСТы и т.п.;• Слова, полностью или частично заменяющиеся звездочками;• Хэштеги и т.п…

В планах на будущее – попробовать внедрить в программу более глубокий анализ текста.

Page 16: Khomitsevich

Изменить или удалить колонтитул презентации можно в разделе Вставка>Колонтитул

16

СПАСИБО ЗА ВНИМАНИЕ!

О КОМПАНИИ

ООО «Центр речевых технологий» (ЦРТ) – российская компания с более чем 20-летней историей. За это время компания накопила богатейший научный потенциал и стала абсолютным лидером российского и значимым игроком международного рынка речевых технологий и мультимодальной биометрии.

Сегодня ЦРТ является ведущим мировым разработчиком инновационных систем в сфере высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи. Создаваемые в ЦРТ биометрические решения обеспечивают высокую точность распознавания личности по голосу и изображению лица в реальном времени. Эти решения находят успешное применение в государственном и коммерческом секторе, от небольших экспертных лабораторий до сложных систем безопасности национального масштаба.

Качество работы компании подтверждается сертификатом международного стандарта ISO-9001:2008, а также сертификатом соответствия требованиям ГОСТ Р ИСО 9001-2008 и ГОСТ РВ 15.002-2003.

КОНТАКТНАЯ ИНФОРМАЦИЯ

Санкт-ПетербургАдрес: Санкт-Петербург, ул. Красуцкого, 4 Телефон: (+7 812) 325-88-48 Факс: (+7 812) 327-92-97 Отдел продаж: (+7 812) 325-88-48 доб.1 Эл. почта: [email protected]Почтовый адрес: 196084 Санкт-Петербург а/я 515 «Центр речевых технологий»

МоскваАдрес: Москва, ул. Марксистская, д.3, стр.5,Бизнес-центр "Таганский", 3 этаж, офис 5.3.1. Телефон: (+7 495) 661-75-50 Факс: (+7 495) 661-75-17 Эл. почта: [email protected]