Ulanov nlp-4

30
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Обработка текстов на естественном языке Александр Уланов

description

 

Transcript of Ulanov nlp-4

Page 1: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

Page 2: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

http://www.scimagojr.com/mapgen.php?un=c&year=2011&country=RU

Page 3: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 3

Page 4: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4

Page 5: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5

Page 6: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 6

Оглавление курса

1. Основы лингвистики. Слова, фразы, предложения, наборы текстов

2. Коллокации слов и статистики

3. Марковские модели. Разбор текстов по частям речи. Распознавание именнованных сущностей

4. Извлечение отношений из текстов

5. Поиск дубликатов в тексте

6. Кластеризация и классификация текстов

7. Анализ мнений

8. Введение в статистический машинный перевод

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)

Page 7: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7

ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ИЗ

ТЕКСТА

Лекция 4

Page 8: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 8

Оглавление

Введение

Паттерны

Полуавтоматический подход

Машинное обучение

Page 9: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 9

Извлечение отношений

Основные задачи

Мы рассматривали поиск коллокаций, именных сущностей, синтаксическую разметку

предложения. Все это можно использовать для извлечения более сложной

информации – отношений (более точно – семантических отношений).

Пример

• Zoltav Resources Inc., дочерняя структура компании Аркадия Абрамовича, купила

британскую компанию Vostok Energy

Применение

• Ответы на вопросы (question answering)

– Кому принадлежит Vostok Energy?

• Составление или пополнение существующих БД или онтологий

– Извлечение именных сущностей решает задачу разметки классов сущностей

• В биоинформатике (в текстах статей) – поиск белков, которые взаимодействуют между собой

– protein Z binds with protein W

• Дальнейшая аналитика

Page 10: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10

Типы отношений

Популярные типы отношений

• Онтологические

– Часть-целое, экземпляры, синонимомы, классы, атрибуты

– Wikipedia, DBPedia, WordNet

• Связанные с именными сущностями

– Работает-в, родился-в

– БД людей, компаний и т.д.

– Hoovers

• События

– Назначен на, купил

• Медицинские

– Причина-болезнь, болезнь-лечение, белок-реакция

– UMLS (Unified Medical Language System), MeSH (Medical Subject Headings Thesaurus)

Page 11: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 11

Инфобоксы Википедии

• HP Type-Of Публичная компания

• HP Motto Create Amazing

• HP Founded-In 1939

• HP Founded-By Билл Хьюлетт

• HP Founded-By Дэвид Паккард

• HP Located-In USA, California, Palo Alto

• …

http://www.wikipedia.org/

Page 12: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 12

Типы отношений Automatic Content Extraction

Extraction, Automatic Content. "Evaluation Plan (ACE08)." Proceedings of the ACE (2008): 1-3.

Page 13: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13

133 типа сущностей и 54 типа отношений

Unified Medical Language System (UMLS)

Сущность Отношение Сущность

Приобретённая патология Результат Поведение

Активность Is-A События

Возврастная группа Is-A Группа

Лабораторный тест Диагностирование Болезнь

Орган Location-Of Болезнь

Лекарство Лечит Болезнь

Анатомическая структура Часть Организм

... ... ...

Примеры экземпляров отношений: Типы отношений:

Page 14: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 14

Подходы к извлечению отношений

Основные подходы

• Обучение без учителя

– извлечение любых типов отношений, валидация по статистике

• Обучение с частичным привлечением учителя

– Бутстрэппинг по паттернам или примерам пар объектов

• Обучение с учителем

– нужен размеченный корпус данных и остроумные признаки

Page 15: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 15

Полуавтоматический подход [Hearst 1992]

Классический подход

1. Составить список известных пар слов, которые состоят в интересуемом отношении

– Виктор Воропаев/ЧТЗ, Олег Дерипаска/РУСАЛ

2. Найти в текстах все упоминания этих пар одновременно в одном предложении

– Виктор Воропаев назначен генеральным директором ЧТЗ

– Олег Дерипаска возглавляет РУСАЛ

3. Обобщить среднюю часть текста между этими парами

– ИМЯ «назначить, генеральный, директор» КОМПАНИЯ

– ИМЯ «возглавлять» КОМПАНИЯ

4. Применить полученные паттерны к тексту, чтобы найти новые пары слов. Перейти к пункту № 2

– Оценить надежность паттернов по количеству правильных и неправильных извлечений

– Банк России с 24 июня 2013 года возглавляет Эльвира Сахипзадовна Набиуллина

Hearst, Marti A. "Automatic acquisition of hyponyms from large text corpora."Proceedings of the 14th conference on Computational linguistics-Volume 2. Association for

Computational Linguistics, 1992.

Page 16: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 16

Паттерны для извлечения отношений

«часть-целое» (гипонимы и гиперонимы)

• Предлагается обобщение подхода

Паттерн Пример текстового фрагмента

such NP as { NP , } * { ( or | and ) } NP … works by such authors as Herrick, Goldsmith, and Shakespeare

NP { , NP } * { , } ( or | and ) other NP … bruises, wounds, broken bones or other injures …

… temples, treasuries, and other important civic buildings ..

NP { , } including { NP , } * { or | and } NP … all common-law countries, including Canada and England …

NP { , } especially { NP , } * { or | and } NP … most European countries, especially France, England, and Spain

NP such as { NP , } * ( or | and ) NP … bow lute such as Bambara ndang …

Hearst, Marti A. "Automatic acquisition of hyponyms from large text corpora."Proceedings of the

14th conference on Computational linguistics-Volume 2. Association for Computational

Linguistics, 1992.

Page 17: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 17

Dual Iterative Pattern Expansion (DIPRE) [Brin

1999] Особенности подхода

• Извлечение из веб-страниц

• Регулярные выражения для именных сущностей (Название книги/Автор)

– Автор [A-Z][A-Za-z .,&]5;30[A-Za-z.].

– Книга [A-Z0-9][A-Za-z0-9 .,:'#!?;&]4;45[A-Za-z0-9?!]

• Вид паттрена

– (author, title, order, url, prefix, middle, suffix)

– Order – 0/1 – что стоит сначала Автор/Название

– Prefix, suffix – 10 символов до/после первой/последней сущности

– Middle – текст между сущностями

• Группировка паттернов по middle и наидлиннейшим суффиксам и префиксам

• Надежность паттерна

– Кол-во встреч с правильной парой Название книги/Автор

Brin, Sergey. "Extracting patterns and relations from the world wide web." The World Wide Web

and Databases. Springer Berlin Heidelberg, 1999. 172-183.

Page 18: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 18

Snowball [Agischtein, Gravano 2000]

Особенности подхода

• Используется распознавание именных сущностей (ORGANIZATION/LOCATION)

• Вид паттрена

– <left, tag1, middle, tag2, right>

– left, middle, right – вектора левого, среднего и правого контекста

• <{<the, 0.2>}, LOCATION, {<-, 0.5>, <based, 0.5>}, ORGANIZATION, {}>.

• Группировка паттернов

– 𝑀𝑎𝑡𝑐ℎ 𝑡𝑝, 𝑡𝑠 = 𝑙𝑝𝑙𝑠 +𝑚𝑝𝑚𝑠 + 𝑟𝑝𝑟𝑠 ≤ 𝜏

– Простая кластеризация паттернов по порогу близости

• Надежность паттерна и извлеченного отношения

– 𝐶𝑜𝑛𝑓 𝑝𝑎𝑡𝑡𝑒𝑟𝑛 =𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠

𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠+𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠

– 𝐶𝑜𝑛𝑓 𝑡𝑢𝑝𝑙𝑒 = 1 − 1 − 𝐶𝑜𝑛𝑓 𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑖 ∙ 𝑀𝑎𝑡𝑐ℎ(𝑐𝑜𝑛𝑡𝑒𝑥𝑡𝑖 , 𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑖𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑠

– 𝐶𝑜𝑛𝑓 … = 𝐶𝑜𝑛𝑓𝑛𝑒𝑤 ∙ 0.5 + 𝐶𝑜𝑛𝑓𝑜𝑙𝑑 ∙ (1 − 0.5)

Agichtein, Eugene, and Luis Gravano. "Snowball: Extracting relations from large plain-text collections." Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000.

Page 19: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 19

KnowItAll [Etzioni et al. 2005]

Особенности подхода

• Используется разпознавание частей речи

• Вид паттернов

• Один проход

• Надежность паттерна и извлеченного отношения

– Запрос на встречаемость данного (данных) объектов

вместе с данным паттерном и отдельно

– Байесовский классификатор для отношений

Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial Intelligence 165.1 (2005): 91-134.

Page 20: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 20

TextRunner [Banko et al. 2007]

Особенности подхода

• Создается классификатор для определения наличия отношений 𝑒𝑖 , 𝑟𝑖𝑗 , 𝑒𝑗

– Автоматическая размета подкорпуса для тренировки

• При помощи дерева зависимости определяется, есть ли зависимость между именными

группами (noun phrase)

• Признаки классификации: последовательности частей речи между в 𝑟𝑖𝑗, количество токенов,

стопвордов, является ли 𝑒𝑖 именной сущностью, части речи слева/справа от 𝑒𝑖 , 𝑒𝑗

• Один проход

– Отношение – текст между именными фразами

• Группировка паттернов по 𝑟𝑖𝑗 с нормализацией

– was originally developed by was developed by

• Надежность паттерна

– Кол-во предолжений, в которых он встретился

Banko, Michele, et al. "Open Information Extraction from the Web." IJCAI. Vol. 7. 2007.

Page 21: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 21

ReVerb [Fader et al. 2011]

Особенности подхода

• Развитие идеи TextRunner

• Для каждого глагола в предложении ищется

наидлиннейщая последовательность по паттерну

• Для каждой найденной по паттерну фразы определются

ближайщие именные фразы слева и справа

• Фраза-отношение валидируется лексически по следующей

коллекции

– Из 500 млн предложений извлечены фразы по

паттернам

– Из них оставляю те, которые от 20 раз использовались с

разными аргументами

• Классификатор для вычисления доверия к ивзлеченной

тройке 𝑒𝑖 , 𝑟𝑖𝑗, 𝑒𝑗

– На основе вручную размеченных 1000 примеров Fader, Anthony, Stephen Soderland, and Oren Etzioni. "Identifying relations for open information extraction." Proceedings

of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,

2011.

Page 22: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 22

Сравнение полуавтоматических подходов

A SURVEY ON RELATION EXTRACTION Nguyen Bach & Sameer Badaskar Language Technologies Institute Carnegie Mellon University

DIPRE Snowball KnowItAll TextRunner ReVerb

Начальные примеры Да Да Да Нет Да

Задан тип отношения Да Да Да Нет Нет

Использование NLP Нет РИС (NER) ЧР (POS) ЧР, NP chunker,

отношения

ЧР, NP chunker

Вид отношения бинарный бинарный Унарный,

бинарный

Бинарный Бинарный

Языкозависимость Нет Да Да Да Да

Извлечение отношений Точно по

паттерну

Приближен

но по

паттерну

Классифика

тор (Байес)

Самообучаю-

щийся

классификатор

Классификатор

с учителем

Кол-во входных

параметров

2 9 >=4 нет нет

Page 23: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 23

Обучение с учителем

Основные подходы

• Стандартный – классификация по набору признаков

– Проблема - придумать остроумные признаки

• Использование строкового ядра (string kernel, Lodhi 2002*) в классификаторе

– Строковое ядро – функция близости строк в многомерном пространстве всевозможных

подстрок

– Ядро с мешком слов

– Ядро с синтаксическими деревьями или деревьями зависимостей

*Lodhi, Huma, et al. "Text classification using string kernels." The Journal of Machine Learning

Research 2 (2002): 419-444.

Page 24: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 24

Обучение с учителем с использованием ядра

Lodhi, Huma, et al. "Text classification using string kernels." The Journal of Machine Learning Research 2 (2002): 419-444.

Контекст Текст отношения Контекст Сущность1 Сущность2

Контекст Текст отношения Контекст Сущность3 Сущность4

Размеченный пример отношения (м.б. отрицательный пример)

Кандидат

𝐾 𝑥, 𝑦 𝐾 𝑥, 𝑦 𝐾 𝑥, 𝑦

SVM, kNN

Page 25: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 25

Обучение с учителем

Основные подходы

• Zelenko et al. 2003

– Синтаксические деревья вместе с текстом (синтаксические группы частей речи)

– Задачи: организация/место, человек/место работы

– Ядро на основе дерева в SVM на 3-7% лучше, чем стандартный подход

• Culotta & Sorensen 2004; Bunescu & Mooney 2005

– Деревья зависимостей вместе с текстом и типом сущности

– Задача ACE 2003, 5 типов отношений

• Kambhatla 2004; Zhou et. al 2005

– Около 40 признаков: слова, части речи, тип сущностей, кол-во и расположение фраз,

зависимости, список сущностей, слова-триггеры

– Задача ACE 2003, 24 типов отношений

• Kambhatla 49 классов MaxEnt, Zhou 43 класса (включая несимметричные) SVM

Page 26: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 26

Сравнение подходов к извлечению

отношений с учителем на ACE 2003

Zhang, Min, et al. "A composite kernel to extract relations between entities with both flat and structured features." Proceedings of the 21st International Conference on Computational

Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006.

Метод P R F1

Составное ядро (Zhang et al. 2006) 77.3 (64.9) 65.6 (51.2) 70.9 (57.2)

SVM с признаками (Zhou et al. 2005) 77.2 (63.1) 60.7 (49.5) 68.0 (55.5)

MaxEnt с признаками (Kambhatla 2004) (63.5) (45.2) (52.8)

Строковое ядро по кратчайшему пути в

дереве зависимостей (Bunescu & Mooney

2005)

65.5 43.8 52.5

Строковое ядро по дереву зависимостей

(Culotta & Sorensen 2004)

67.1 35.0 45.8

*Для 5 основных типов отношений (для всех 24)

Page 27: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 27

Что еще бывает?

Несимметричные отношения

• Каждому направлению – свой классификатор

Многовалентные отношения

• Рассматриваются попарные варианты

• Semantic role labeling (CoNLL 2005, Senseval-3, SemEval 2007 & 2010)

Отношения из Википедии для семантической паутины (Semantic Web)

• DBPedia, Freebase, Yago, ...

Анализ статей по биоинформатике

• protein Z binds with protein W

• Gene G with mutation M leads to malignancy L

• BioNLP Shared Task 2011

Page 28: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 28

Извлечение отношение и NLP

Sentence splitter Tokenizer

NER

Support

entities

Events

Triggers

Разбивка на предложения Токенизация

Именованные сущности

Определение частей речи

Разрешение ссылок,

неоднозначности

Чанкинг

Извлечение отношений

Глубокий разбор

Извлечение

событий

Page 29: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 29

Заключение

Введение

Паттерны

Полуавтоматический подход

Машинное обучение

Page 30: Ulanov nlp-4

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 30

Спасибо!

[email protected]