Serebryakov

21
© Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Извлечение событий из текстовых документов Сергей Серебряков HP Labs Russia 26/05/2012 AINL, Санкт-Петербург

description

Выступление HP labs на AINL. Сергей Серебряков

Transcript of Serebryakov

Page 1: Serebryakov

© Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Извлечение событий из текстовых документов

Сергей Серебряков HP Labs Russia 26/05/2012 AINL, Санкт-Петербург

Page 2: Serebryakov

2 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

События 1. В Topic Detection and Tracking события представляют собой множества

документов которые описывают “нечто уникальное, произошедшее в определённый момент времени”;

2. В Message Understanding Conference события представляют собой группы или фразы формирующие шаблон, связывающий участников, временные выражения и локации друг с другом;

3. Событие состоит из глагола и двух именованных сущностей появляющихся вместе достаточно часто в документах на определённую тематику;

Page 3: Serebryakov

3 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Постановка задачи События включают сущности и отношения между ним и предполагают смену состояния: • В 1998 корпорация Exxon приобрела Mobil (поглощение); • Sportmart Inc заявил во вторник что Andrew Hochberg, президент, был назначен

управляющим компанией (смена должностной позиции); Задача извлечения событий заключается в автоматическом определении событий в неструктурированных документах и извлечение детальной информации о них, в идеале, определяя “кто сделал что кому, когда, при помощи каких методов (инструментов), где и почему” (H. Tanev et al., 2009)

Page 4: Serebryakov

4 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Примеры 1. SRA сегодня объявила о том что она прибрела Sentech, компанию, консультирующую в

области управления электроэнергией и имеющую большой опыт в области возобновляемых источников энергии. 1. Объявление компании (Компания: SRA, Временное выражение: сегодня) 2. Поглощение(Покупатель: SRA, Приобретаемая компания: Sentech)

2. David Gyngell ушёл с позиции директора Crown Ltd в связи с тем что его новая должность в компании PBL Media не позволит ему эффективно исполнять обязанности в компании Crown. 1. Отставка(Человек: David Gyngell, Позиция: director, Компания: Crown Ltd)

3. Morrow Snowboards Inc объявил что David Calapp был назначен исполнительным директором компании. 1. Объявление компании (Компания: Morrow Snowbards) 2. Смена позиции (Человек: David Calapp, Новая позиция: исполнительный директор)

Page 5: Serebryakov

5 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Мотивация

Большой объём неструктурированных данных содержащих полезную информацию

Поглощение: [HP, Palm, 28.04.2010] Банкротство: [LaunchTech, 14.01.2011] Смена позиции: [Leo Apotheker, HP, SEO, 30.10.2010] Природная катастрофа: [Earthquake, New Zeland, 04.10.2010]

Сложная обработка событий: Вход: атомарные события Выход: сложные события

Система извлечения событий Вход: неструктурированные данные Выход: извлечённые события с атрибутами

Событие A коррелирует с B. Событие C призойдёт с вероят. 0.8. Сложное событие D происходит. Сложное событие E не происходит.

Аналитика Вход: события, сложные события Выход: рекомендованные действия

Покупка акций. Продажа акций. Изменение цепочки поставок. …

Page 6: Serebryakov

6 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Предыдущие работы

• Академические исследования –TimeML (J. Pustejovsky et al., 2003) –Automatic Content Extraction (G. Diddington et al., 2004)

• Коммерческие системы –Thomson Reuters (T. Heinze et al., 2008) –European Media Monitor (C. Best et al., 2005)

Page 7: Serebryakov

7 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Требования

Извлечение информации в реальном времени; Извлечение полного набора аттрибутов и дополнительной информации с целью лучшего понимания контекста; Применимость к новым задачам и возможность к расширению множества извлекаемых событий;

Page 8: Serebryakov

8 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Предлагаемый подход Извлечение событий с использованием: Словарного поиска; Извлекающих правил; Unstructured Information Management Architecture (UIMA);

Отличия от предыдущих работ: Извлечение богатого набора аттрибутов и дополнительной информации с

целью лучшего понимания контекста путём агрегации аннотаций Обоработка документа целиком Извлечение информации с минимальной задержкой

Page 9: Serebryakov

9 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Извлечение событий Разбивка на предложения

Разбивка по словам

Словарный поиск

Извлекающие правила

CAS: (документ, аннотации)

Документ

События

Система

– Разбивка по предложения и словам: whitespace tokenizer (UIMA) – Словарный поиск: dictionary based concept mapper (UIMA) – Извлекающие правила: TextMARKER engine

Page 10: Serebryakov

10 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Словарный поиск

24 словаря для извлечения 5 типов событий города, компании, страны, имена, индикаторы событий, элементы временных выражений и т.п.

Каждый элемент в словаре содержит ряд атрибутов которые копируются в аннотации

Page 11: Serebryakov

11 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Агрегация на основе правил

… ЗАО Новые Технологии…

Индикатор компании

Слово с заглавной буквы

Слово с заглавной буквы

Компания

CompanyIndicator CapitalizedWord+? ->

MARK(Company{name(#2), type(#1)})

Правила объединяют аннотации в более сложные структуры и/или модифицируют существующие аннотации.

Page 12: Serebryakov

12 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Извлечение информации с использованием правил

Gene Isenberg is stepping down as chief executive of Nabors Industries Ltd. T T T T T T T T T

First Name

Company

Position Resignation Indicator

Resignation Event

CW T T T

CW Company Indicator

• FirstName CW • {->MARK(LastName), MARK(Person, 1, 2)};

• CW+? CompanyIndicator+ • {-> MARKONCE(Company, 1, 2)};

• Person ResignationIndicator "as" Position "of" "the"? Company • {->GATHER(ResignationEvent, 1, 2, 3, 4, 5, 6, 7, "person" = 1, "position" = 4, "company" = 7)};

Person

CW

Page 13: Serebryakov

13 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Атрибуты Событие Атрибуты

Слияния & Поглощения покупатель, покупаемый, временное выражение, сумма сделки

Смена должностной позиции человек, прошлая позиция, новая позиция, прошлая компания, новая компания, временное выражение

Отставка человек, позиция, компания, временное выражение Объявления людей человек, временное выражение Объявления компаний компания, временное выражение

Page 14: Serebryakov

14 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Примеры Текст Правило

3 миллиарда NUM+? WordNumber+ {-> MARKONCE(NUM, 1, 2)};

2.3 млн долларов NUM CurrencyUnit {-> MARKONCE(PriceUnit, 1, 2)};

ЗАО Новые Технологии CompanyIndicator CW+? {-> MARKONCE(Company, 1, 2, 3)};

Redmond-based Microsoft City "-" "based" Company {-> MARKONCE(Company, 1, 2, 3, 4)};

14 Февраля 08 DayNumber Month NUM{REGEXP("^([0-9]{2})$") ->MARKONCE(TE, 1, 2, 3, 4, 5)};

Page 15: Serebryakov

15 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

События Индикатор события (триггер) – ключевое слово сигнализирующие о возможном наличии события

Событие Пример индикатора Слияния & Поглощения приобрёл, была приобретена, была куплена, будет

приобретена Смена должностной позиции был назначен, занял должность Отставка Покинул должность, ушёл с позиции Объявления компаний и людей

объявил, проинформировала, сделала объявление

Page 16: Serebryakov

16 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Примеры правил Text Rule

HP acquired Palm. Company AcquisitionIndicator "the"? Company {-> GATHER(AcquisitionEvent, 1, 2, 3, 4,“comp1" = 1, “comp2" = 4)};

John Kimpbell has resigned as vice president.

Person ResignationIndicator "as" Position {->GATHER(ResignationEvent, 1, 2, 3, 4, "person" = 1, "position" = 4)};

Andrew Hochberg was named as CEO of the Sportmart Inc. couple of days ago.

Person PositionChangeIndicator W? Position "of" "the"? Company TE? {-> GATHER(PositionChange, 1, 2, 3, 4, 5, 7, 8,"person" = 1, "newPosition" = 4, "newCompany" = 7)};

Page 17: Serebryakov

17 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Мотивация использования архитектуры UIMA 1. Документы внутри UIMA обрабатываются аннотаторами – компонентами

реализующими определённый метод извлечения информации (разбивка на предложения, разбивка по словам, определение частей речи и т.п.);

2. Существует большое количество репозиториев с UIMA аннотаторами реализующие различные алгоритмы обработки текстов;

3. Опыт компаний показывает что UIMA представляет собой удобную архитектуру для обработки больших объёмов неструктурированных данных;

4. Механизм UIMA AS позволяет разворачивать процессоры текстов на нескольких узлах сети тем самым масштабируя систему под возрастающие потоки информации;

Page 18: Serebryakov

18 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Архитектура

Page 19: Serebryakov

19 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Эксперимент Пять типов событий 1. CA – объявления компаний 2. PA – объявления людей 3. M&A – слияния и поглощения 4. RES – отставка 5. MPC – смена должностной

позиции

Выход CA PA M&A RES MPC

Вх

од

CA 163 21 0 0 0

PA 12 200 0 0 0

M&A 0 0 125 0 0

RES 0 0 0 217 0

MPC 0 0 0 0 15

Other 17 3 14 5 0

Average processing time is 37 ms for articles containing one event and 45.72 ms in case if an article contains two events.

Среднее время обработки 37 мс для новости содержащей описание одного события и 45.72 мс в случае наличия в новостном документе двух событий.

Page 20: Serebryakov

20 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Извлечение событий из текстов на русском языке

• Workstation, 4 GB RAM, Windows 7 x64, 3 pipelines inside CPE; • Среднее количество символов в статье 2436; • Среднее время обработки одной статьи 57 мс.

Source #articles

Announcements

M&A MPC Res

RIA 2800 2382 744 58 28 mergers.ru 12500 6561 7494 163 74 maonline.ru 13000 ~10000 ~5000 ~200

Page 21: Serebryakov

21 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Спасибо!