© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обработка текстов на естественном языке Александр Уланов
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2
Оглавление курса
1. Основы лингвистики. Слова, фразы, предложения, наборы текстов
2. Статистики, языковые модели
3. Марковские модели. Разбор текстов по частям речи
4. Извлечение отношений из текстов
5. Поиск дубликатов в тексте
6. Кластеризация и классификация текстов
7. Анализ мнений
8. Введение в статистический машинный перевод
Литература
• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999
• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010
• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 3
АНАЛИЗ МНЕНИЙ Лекция 7
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4
Оглавление
Введение
Задачи анализа мнений
Определение тональности текста
Определение обсуждаемых аспектов и их тональности
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5
Введение
Анализ мнений
Sentiment Analysis, Opinion Mining
• Численный анализ мнений, настроений, субъективности, оценок, отношения, эмоций и т.д,
которые выражены в текстовом виде
– Обзоры, отзывы, блоги, твиты, комментарии…
• Терминология
– Sentiment Analysis используется чаще
– Opinion Mining в сообществе Data Mining
• Важность
– Люди опираются на мнения и отзывы других людей
– Организации используют фокус-группы, консультантов и т.д.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 6
Приложения
Анализ мнений
• В бизнесе
– Анализ товаров и рынка
• Персонально
– Покупка продуктов и сервисов
– Советы
– Политические мнения
• Реклама
– Рекламировать товар, который хвалят в данном тексте
• Поиск мнений
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7
Основные задачи
Анализ мнений
• Классификация документов на основе мнений
– Отзывы, твиты, блоги: положительный, отрицательный, нейтральный
• Классификация аспектов на основе мнений
– Какая тональность у заданной сущности
– Какие аспекты данного товара обсуждаются и какова их тональность
• Создание словарей оценочных слов
• Поиск сравнений
• Поиск спама в отзывах
• Анализ полезности отзывов
• Другие задачи…
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 8
Пример отзыва
Анализ мнений
• На уровне продукта
• На уровне отзыва
• На уровне предложения
• На уровне аспектов товара
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что
касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь,
а тут мало того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по
сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено
в это сфере.
В тексте:
• Объекты мнений
• Отношение: позитивное, негативное, нейтральное
• Сравнение
• Субъект, высказывающий мнение
• Время: когда было высказано мнение
• Ирония?
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 9
Подзадачи анализа мнений
В общем случае
• Распознавание именных сущностей (Named Entity Recognition)
• Поиск отношений (Relationship Extraction)
• Поиск мнений (Sentiment Identification)
• Распознавание ссылок ( Co-reference resolution)
• Извлечение синонимов (Synonym extraction)
• И другие задачи извлечения информации (Information Extraction)
• Решения всех этих задач должны подходить друг к другу
Подзадачи подзадач
• Все задачи обработки текстов на естественном языке (NLP)
– Разбивка текста на предложения, предложения на слова, определение частей речи,
структуры предложения…
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10
Классификация документов
Классификация без учителя
• Использование словарей оценочных слов, классификация по разнице положительных и
отрицательных слов в документе, бутстраппинг
• Словари: General Inquirer (1045pos, 1160neg), Bing Liu (2007pos, 4784neg), MPQA (2718pos, 4913neg)
Классификация с учителем
• Набор данных для обучения (обычно – бинарная классификация, без нейтрального класса)
– Отзывы: 1,2 звезды – отрицательные, 4,5 – положительные
• Признаки – отдельные слова (+ конкатенация отрицаний). Части речи, фразы не эффективны
– Вес слова – 0/1 [Pang & Lee 2002]
– 𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗) ∙ log𝐷
𝑁 𝐷 𝑤𝑖𝑡ℎ 𝑡𝑘 c норм. 𝑤𝑗𝑘 =
𝑡𝑓𝑖𝑑𝑓(𝑡𝑘,𝑑𝑗)
𝑡𝑓𝑖𝑑𝑓(𝑡𝑠,𝑑𝑗)2𝑇
𝑠=1
– delta𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗 )∙ log𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘
𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘
• NaiveBayes, SVM, Decision Trees
• ~83% F-мера
Martineau, Justin, and Tim Finin. "Delta
TFIDF: An Improved Feature Space for
Sentiment Analysis." ICWSM. 2009.
Pang, Bo, Lillian Lee, and Shivakumar
Vaithyanathan. "Thumbs up?: sentiment
classification using machine learning
techniques." Proceedings of the ACL-02
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 11
Обучение с учителем и словарь РОМИП 2011
• Набор отзывов по книгам, фильмам и камерам
• Бинарная классификация: 750 положительных и 124 отрицательных
• Обучение с учителем: персептрон
• Классификация по словарю:
– Бинарные и частотные веса слов из словаря
*A. Ulanov, G. Sapozhnikov. CONTEXT-DEPENDENT OPINION LEXICON TRANSLATION WITH THE USE OF A
PARALLEL CORPUS. Dialog 2013
MicroP MicroR
(Accuracy) MacroR MacroF1
Обучение
с учителем
Perceptron 0,84 0,84 0,59 0,60
Perceptron
+ delta-tf-idf 0,84 0,84 0,62 0,63
Словарь Бинарный 0,84 0,80 0,59 0,61
Частотный 0,86 0,82 0,59 0,61
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 12
Сравнение эффективности
Набор
данных
Кол-во
документов
Средняя
длина
Бинарный bTFIDF
(norm)
dTFIDF adTFIDFs
Movie
Review
2000 668 87.85 88.20 91.60 96.60
Multi-
Domain
8000 217 86.96 88.25 92.25 96.36
BLOGS06 17898 2832 77.39 78.55 80.58 85.04
Классификация с учителем
• Бинарная классификация SVM (liblinear)
• Сравнение вариантов весов (на базе Accuracy)
– Наиболее эффективный: 𝑎𝑑𝑒𝑙𝑡𝑎𝑇𝐹𝐼𝐷𝐹𝑠(𝑡𝑘, 𝑑𝑗 )= 0.5 +0.5𝑁(𝑡𝑘,𝑑𝑗 )
𝑁𝑚𝑎𝑥 𝑡,𝑑𝑗log
𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘 +0.5
𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘 +0.5
Paltoglou, Georgios, and Mike Thelwall. "A study of information retrieval weighting schemes for sentiment analysis." Proceedings
of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13
Классификация полярности в Твиттере
Особенности классификации в Твиттере
• Набор данных для обучения можно получить по запросам «:)» и «:(» [Go et al. 2009]
• Очень большое пространство признаков (токенов)
– Убирают имя пользователя, ссылки, повторяющиеся буквы в слове – около 50% всех признаков
• В отличие от отзывов, твиты явно не привязаны к продукту или компании
– Тональность компании или продукта считают по кол-ву положительных и отрицательных твитов
– Это далеко не всегда верно (неверно в 40% случаях по данным [Jiang et al. 2011])
• Дальше все стандартно: SVM классификатор
– Части речи и фразы не помогают (биграммы – чуть-чуть по некоторым данным)
• 82% точность классификации
Jiang, Long, et al. "Target-dependent Twitter Sentiment Classification." ACL. 2011.
Go, Alec, Richa Bhayani, and Lei Huang. "Twitter sentiment classification using distant supervision." CS224N Project
Report, Stanford (2009): 1-12.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 14
Классификация документов. Адаптация
Проблема адаптации к различным областям
• Классификатор, обученный на отзывах на ноутбуки, не будет хорошо работать на отзывах на книги
• Необходим размеченные отзывы на данный тип товара, но есть варианты:
– Наличие неразмеченных текстов из интересуемой области
• Используются простые оценочные слова («плохой», «хороший»)
• Вычисляется корреляция между этими словами и словами в наборе текстов из данной области.
Значение используется в качестве веса слова при обучении и классификации
– Наличие размеченных текстов на несколько других типов товаров
• Delta-tf-idf (насколько специфично данное слово)
– Использование признаков, не зависящих от типа товара
• Низкая точность классификации
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 15
Классификация документов. Адаптация
Неразмеченные тексты
• Выбор основных признаков по PMI
• Вычисляется корреляция между
основными признаками и всеми
остальными
– J. Blitzer, M. Dredze, and F. Pereira. 2007.
Biographies, bollywood, boom-boxes and
blenders: Domain adaptation for sentiment
classification. In ACL.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 16
Классификация документов на разных
языках Классификация с учителем
• Разметка набора данных на нужном языке
• Автоматический перевод текстов [Banea et al. 2011]
– Существующих размеченных данных на нужный язык, затем обучение классификатора
– С нужного языка на тот язык, в котором есть классификатор
Классификация без учителя
• Составление списка оценочных слов в нужном языке (далее)
• Автоматический перевод списка оценочных слов (например, с английского)
– Работает хуже всего, если делать прямолинейно (через словарь или Google Translate)
– Но есть остроумные варианты
• Если есть словари в двух языках – выбор такого перевода, который одинаков из языка#1 и
языка#2 [Steinberger et al. 2012]
• Слово должно переводиться через Google Translate туда и обратно одинаково [Ulanov &
Sapozhnikov 2013]
• При помощи неразмеченных параллельных текстов [Ulanov & Sapozhnikov 2013]
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 17
Классификация: самообучение
Извлечение всех фраз с существительными
• Разбор текстов по частям речи
• Паттерны для фраз
– JJ- прилагательное
– NN – существительное
– RB* – наречие
– VB* - глагол
Определение тональности фраз
• При помощи поисковой машины и PMI по кол-ву ее ответов на соотв. запросы
Определение тональности документа
• Среднее по фразам
*Turney, P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In
Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002.
)"",()"",( poorphrasePMIexcellentphrasePMIphraseSO
bhitsahits
bahitsbaPMI
,
bootstrapping
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 18
Создание словаря оценочных слов
Классический поиск паттернов и извлечение информации
• На основе небольшого изначального набора слов и паттернов [Hatzivassiloglou & McKeown 1997]
– Только прилагательные (and, or, but, either-or, neither-nor)
– Похожие формы, классификатор (до 90% F1 в зависимости от размера тренировочной выборки)
• На основе небольшого изначального набора слов и PMI [Turney 2002]
– PMI(“best”,”candidate”)-PMI(“worst”,”candidate”)
Hatzivassiloglou, Vasileios, and Kathleen R. McKeown. "Predicting the semantic orientation of adjectives." ACL, 1997.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 19
Создание словаря оценочных слов
Подходы
• На основе размеченных отзывов (положительный/отрицательный)
– По хи-квадрат, PMI, IG...
• Double propagation [Qiu et al 2009, 2011]
– Дан изначальный набор оценочных слов
– Находим все аспекты
– Находим все оценочные слова этих аспектов
– Дополняем изначальный набор и начинаем сначала
• Словарь должен иметь высокую точность, поэтому необходима проверка
словаря человеком
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 20
Классификация аспектов на основе мнений
Аспект – сущность, тональность которой требуется узнать
• Актуальность
– Какая тональность у заданной сущности (бренд-мониторинг)
– Какие аспекты данного товара обсуждаются и какова их тональность (анализ отзывов)
• Ранжирование аспектов
• Тональность заданной сущности
– В случае отзывов на сущность – равна тональности отзыва
– В случае короткого текста (предложение, твит, статус) - равна тональности текста
• Для Твиттера неверно в 40% случаях по данным [Jiang et al. 2011]
• В качестве альтернативы – тональность считается обратно пропорциональной расстоянию до
оценочных слов
• Для более точного определения используется дерево зависимостей
i i
i
awd
wsoaso
,
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 21
Извлечение аспектов
Как задача поиска паттернов и извлечения информации
• [Hu & Liu 2004]
– Извлечение «частых» аспектов при помощи ассоциативных правил на наборе именных фраз (в
работе – последовательность из 1 и более существительных). Должны встречаться в 1% отзывов
– Прилагательное перед «частым» аспектом считается оценочным
– Полярность оценочного слова определяется при помощи бутстрапинга и WordNet
– Если в предложении нет «частого» аспекта, то «редкий» аспект определяется как именная фраза,
ближайшая к оценочному слову (если оно есть)
– Ранжирование аспектов по кол-ву встречаний отдельно и в составе более длинной фразы
– Тестирование на наборе из отзывов на 5 продуктов
– Точность и полнота порядка 80%
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 22
Извлечение аспектов
Как задача поиска паттернов и извлечения информации
• OPINE [Popescu & Etzioni 2005]
– На основе системы извлечения отношений KnowItAll (лекция 4) извлекаются части и свойства
данного класса продукта, а также атрибуты частей
– Вычисляется PMI между аспектом и меронимичной фразой (“scanner comes with”, “of scanner”) в
тексте и в Интернете (два разных PMI – это дало большой прирост точности)
– У аспектов по дереву зависимостей извлекается модификатор (обычно прилагательное) и головное
слово (обычно глагол), для этого составлены правила
– Тональность фразы определяется аналогично [Hatzivassiloglou & McKeown 1997] (начальному
набору оценочных слов и паттернам), но с доп. набором признаков, типа PMI как у [Turney 2002]
(между фразой и известным оценочным словом)
P R
Hu & Liu 0.72 0.80
OPINE 0.94 0.77
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 23
KnowItAll [Etzioni et al. 2005]
Особенности подхода
• Используется разпознавание частей речи
• Вид паттернов
• Один проход
• Надежность паттерна и извлеченного отношения
– Запрос на встречаемость данного (данных) объектов
вместе с данным паттерном и отдельно
– Байесовский классификатор для отношений
Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial Intelligence 165.1 (2005): 91-134.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 24
Извлечение аспектов
Как обучение с учителем
• [Wu et al. 2009]
– Кандидаты в аспекты – все именные фразы + фильтрация по языковой модели отзывов
– Должна быть связь между оценочным словом из словаря и аспектом (по дереву зависимостей < 5)
– Обычная классификация и со строковым ядром (лекция 4)
– Атрибуты обычной классификации: позиция (начало, конец, другое), дистанция между аспектом и
ос, есть ли прямая связь между аспектом и ос, что идет сначала, часть речи
– Строковое ядро: дерево зависимостей, слова и части речи
– F-мера в районе 40-50%, что ненамного больше тривиального метода, когда аспект определяется
как ближайщая к ос именная фраза (40%)
– Зато не зависит от области отзывов (теоретически), так как используются только лингвистические
признаки
• [Jacob & Gurevich 2010]
– CRF с использованием токенов, по сути необходимо, чтобы аспекты оказались в тренировочной
выборке, а CRF решает, в каком качестве они используются в данном отрывке текста
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 25
Извлечение аспектов
Как обучение с учителем
• Поиск аспектов в отзывах на ноутбуки на руссом языке [Marchuk, Ulanov et al. 2013]
– Кандидаты в аспекты – все существительные
– Бинарная классификация кандидатов
• Не каждое упоминание в тексте, а вообще как слово
– Признаки: странность (корпус отзывов и худ литература), PMI (между кандидатом и классом
товара), TFIDF, TF, расстояние до оценочного слова
– Проблемы:
• плохое согласие между ассесорами, что же такое аспект (60%)
• не-аспектов примерно втрое больше, дисбаланс
Dataset P R F1
Vote-strong 0.757 0.711 0.733
Vote-negative 0.509 0.316 0.39
Vote-positive 0.79 0.728 0.758
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 26
Извлечение аспектов
Ранжирование аспектов
• [Yu et al. 2011]
– Тональность отзыва линейно зависит от
обсуждаемых аспектов продукта.
– Небольшая разница между частотным и
корреляционным методом на @5-@15.
NDCG в пределах 0.68-0.96
– Предложенный метод ранжирование дает
преимущество на @5 (около 0.13)
Yu, Jianxing, et al. "Aspect Ranking: Identifying Important Product Aspects from Online Consumer Reviews." ACL. 2011.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 27
Другие задачи
Релевантные задачи
• Определение субъективности [Riloff & Wiebe 2003] (по паттернам, как извлечение информации)
– Используется для фильтрации предложений перед анализом мнений
• Разрешение анафоры
– Около 10-15% аспектов – местоимения
Задачи анализа мнений
• Предсказание рейтинга товара по отзыву
– Как задача регрессии (не особо успешно, проще делать положительно/отрицательно)
• Определение полезности отзывов [Zhang & Varadarajan 2006]
– Как задача классификации по остроумным признакам
• Определение спама в отзывах [Lim et al. 2010]
• Реферирование отзывов
– Выделить аспекты, мнения, тональности, представить все вместе
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 28
Содержание
Введение
Задачи анализа мнений
Определение тональности текста
Определение обсуждаемых аспектов и их тональности
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 29
Google products
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 30
Amazon
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 31
Яндекс маркет
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 32
Отзывной ру
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 33
Спасибо!
Top Related