Ulanov nlp-6

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

Оглавление курса

1. Основы лингвистики. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Марковские модели. Разбор текстов по частям речи

4. Извлечение отношений из текстов

5. Поиск дубликатов в тексте

6. Кластеризация и классификация текстов

7. Анализ мнений

8. Введение в статистический машинный перевод

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)


КЛАССИФИКАЦИЯ ТЕКСТОВ Лекция 6


Оглавление

Введение

Представление данных и выбор атрибутов классификации

Меры эффективности

Классификаторы


Введение

Классификация (категоризация, routing, filtering) текста

Назначить документам (фрагментам текста) одну или более категорий

• Организация документов

– Накладные, заявки, счета...

• Классификация новостных статей

– Политика/Спорт/Экономика...

• Фильтрация спама

• Классификация отзывов пользователей

– Положительный/Отрицательный

• Индексирование документов

– Присвоение им ключевых слов

• Определение авторства, языка, жанра

• Классификация предложений, фраз, слов


Введение

Дано

• Представление документа 𝑑 в структурированном виде

– Например, в виде списка слов

• Фиксированный набор классов (категорий, меток)

– 𝐶 = 𝑐1, … , 𝑐𝑛

Определить

• Категорию(и) документа 𝑑: 𝛾 𝑑 → 𝐶

– 𝛾 𝑑 - функция классификации, которую мы либо определяем сами, либо хотим найти


Подходы к классификации

Классификация (категоризация) текста

• Ручной

– Патентная категоризация, УДК, статьи

• При помощи правил

– «футбол» «спорт»

– Используется на больших предприятиях для классификации документов, анализа отзывов, в

новостных агенствах

– Достоинства: ясность происходящего, может сделать любой, высокая точность

– Основная проблема – поддержка консистентности правил, особенно когда категорий много

• Обучение с частичным привлечением учителя

– Бутстрэппинг




• Обучение с учителем

– Хотим найти функцию классификации 𝛾 𝑑 при заданном обучающем множестве

– Нужен размеченный набор данных, но обычно его не сложно сделать самостоятельно

– Недостатки: зачастую причины решений автоматического классификатора непонятны для

неподготовленного пользователя

• По количеству классов

– Бинарная

– Мультиклассовая с одним решением

– Мультиклассовая со многими решениями

• Большинство подходов – это бинарные классификаторы

• Мультиклассовый классификатор можно получить при помощи бинарных

– N бинарных (по количеству классов)

– N(N-1)/2 попарных (класс1 vs. класс2)




• Наиболее популярные алгоритмы

– Наивный Байесовский (Naïve Bayesian – NB)

– Support Vector Machines (SVM)

– Логистическая регрессия (Logistic regression)

– K-ближайших соседей (k-Nearest neighbours – kNN)

• В лекции 3 мы рассмотрели классификаторы последовательностей (для классификации слов в

части речи и классы именных сущностей)

– Скрытые марковские цепи (HMM)

– Скрытые марковские цепи с максимальной энтропией (MEMM)


Оценка качества классификации

Размеченные обучающая тестовая выборки

• Обычно - кросс-валидация: разбивка на K (10) непересекающихся наборов, на

каждом обучение и тестирование, затем усреднение результатов

• Бинарная классификация: точность, полнота

– 𝑃 =𝑡𝑝

𝑡𝑝+𝑓𝑝, 𝑅 =

𝑡𝑝

𝑡𝑝+𝑓𝑛, 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =

𝑡𝑝+𝑡𝑛

𝑡𝑝+𝑓𝑝+𝑡𝑛+𝑓𝑛, 𝐹1 =

2𝑃𝑅

𝑃+𝑅

• Особенности для классификации на много классов

– 𝑃𝑖 =𝑡𝑝𝑖

𝑡𝑝𝑖+𝑓𝑝𝑖, 𝑅𝑖 =

𝑡𝑝𝑖

𝑡𝑝𝑖+𝑓𝑛𝑖

– 𝑃𝑚𝑎𝑐𝑟𝑜 =1

С

𝑡𝑝𝑖

𝑡𝑝𝑖+𝑓𝑝𝑖

𝐶𝑖=1 , 𝑅𝑚𝑎𝑐𝑟𝑜 =

1

С

𝑡𝑝𝑖

𝑡𝑝𝑖+𝑓𝑛𝑖

𝐶𝑖=1 , 𝐹1𝑚𝑎𝑐𝑟𝑜

– 𝑃𝑚𝑖𝑐𝑟𝑜 = 𝑡𝑝𝑖

𝐶𝑖=1

𝑡𝑝𝑖+𝑓𝑝𝑖𝐶𝑖=1

, 𝑅𝑚𝑖𝑐𝑟𝑜 = 𝑡𝑝𝑖

𝐶𝑖=1

𝑡𝑝𝑖+𝑓𝑛𝑖𝐶𝑖=1

, 𝐹1𝑚𝑖𝑐𝑟𝑜

• Классификация на много классов, где каждый документ может быть отнесен к

нескольким классам

– 𝑃𝑚𝑎𝑐𝑟𝑜𝑚𝑙 =

1

𝐷

𝐶𝑡𝑟𝑢𝑒∩𝐶𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑

𝐶𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑

𝐷𝑗=1 , 𝑅𝑚𝑎𝑐𝑟𝑜

𝑚𝑙 =1

𝐷

𝐶𝑡𝑟𝑢𝑒∩𝐶𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑

𝐶𝑡𝑟𝑢𝑒

𝐷𝑗=1 , аналогично micro

Решение

классификатора

Класс Не класс

Класс tp fn

Не класс fp tn

Решение классификатора

Класс1 Класс2 Класс3

Класс1 tp1

Класс2 tp2

Класс3 tp3 fp1

fn1


Представление данных

• Мешок слов (bag of words)

– Каждый документ – это набор слов

• Векторное

– Каждый документ – вектор в многомерном пространстве слов

– 𝑑 𝑗 = 𝑤1𝑗 , … , 𝑤 𝑇 𝑗 ,

– 𝑇 – набор слов, которые встречаются хотя бы один раз во всей коллекции

– 0 ≤ 𝑤𝑘𝑗 ≤ 1 – вес данного слова для данного документа

• Вместо/вместе со словами

– Леммы (для языков с богатой морфологией)

– Корни слов (неэффективно)

– Фразы, но это не особо помогает (только при небольшом тренировочном наборе)


Представление данных

• Вес слова

– Бинарный 0/1 (для Байесовского классификатора, для коротких документов)

– Частота в документе (term frequency)

– TF-IDF (наиболее популярный вариант)

• 𝑡𝑓𝑖𝑑𝑓(𝑡𝑘 , 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗) ∙ log𝐷

𝑁 𝑑 𝑤𝑖𝑡ℎ 𝑡𝑘

• Нормализация 𝑤𝑗𝑘 =𝑡𝑓𝑖𝑑𝑓(𝑡𝑘,𝑑𝑗)

𝑡𝑓𝑖𝑑𝑓(𝑡𝑠,𝑑𝑗)2𝑇

𝑠=1


Выбор атрибутов классификации

Необходимость

• Уменьшить размерность задачи

– Меньше времени на обучение

– Меньше времени на принятие решения

• Иногда повышается эффективность на тестовой коллекции (меньший фиттинг под

тренировочные данные)

• Но для работы на реальных данных (которые раньше не видели) лучше этого не делать

Подходы

• Стоп-слова

– Служебные слова, общие слова

• По частоте (общей и в документах)

• 𝜒2 (лекция 2)

• PMI (лекция 2)

• Information gain

Точность

Кол-во атрибутов

По частоте (уменьшение размерности)

Более сложный критерий (хи2)


Выбор атрибутов классификации

• По частоте

– Обычно убирают атрибуты с частотой и частотой по документам менее 2

• Более сложные критерии позволяют существенно снизить размерность, не повлияв на эффективность

Forman, George. "An extensive empirical study of feature selection metrics for text classification." The Journal of machine learning research 3 (2003): 1289-1305.


Алгоритмы классификации

Построение бинарного классификатора

• Определение функции классификатора 𝛾 ∶ 𝐷 → 𝐹𝐴𝐿𝑆𝐸, 𝑇𝑅𝑈𝐸 или 𝐷 → 0,1 . В последнем

случае необходимо определить порог 𝜏: 𝛾 > 𝜏 𝑖𝑠 𝑇𝑅𝑈𝐸, 𝛾 ≤ 𝜏 𝑖𝑠 𝐹𝐴𝐿𝑆𝐸

Типы классификаторов

• По типу разделяющей поверхности

– Линейные и нелинейные (𝑐 = 𝑎1 …𝑎𝑛 , 𝑑 = 𝑤1 …𝑤𝑛 , решение ℎ~ 𝑎𝑖𝑤𝑖𝑖 )

• Обучение – пакетное (batch) или инкрементальное (incremental)

• По типу модели

– Вероятностные

• Байесовский и вариации

– Деревья решений (decision trees)

– Функциональные (регрессия, SVM)

– Основанные на примерах [instance-based, example-based] (kNN)

• Метаклассификаторы


Наивный Байесовский классификатор

Naïve Bayesian

• При условии независимости слов в документе между собой:

– 𝑝 𝑐|𝑑 ~𝑝 𝑐 𝑝 𝑑|𝑐 = 𝑝 𝑐 𝑝 𝑤|𝑐𝑤

• Бинарный классификатор (отношений правдоподобий)

–𝑝 𝑐|𝑑

𝑝 𝑐 |𝑑

• Случай многих классов

– 𝑐𝑀𝐴𝑃 = argmax𝐶

log 𝑝 𝑐|𝑑 = argmax𝐶

log 𝑝 𝑐 + log𝑝 𝑤|𝑐𝑤

– 𝑝 𝑐 =𝑁 𝑐

𝑁, 𝑝 𝑤|𝑐 =

𝑁 𝑤 𝑖𝑛 𝑐

𝑁 𝑤𝑜𝑟𝑑𝑠 𝑖𝑛 𝑐 или 𝑝 𝑤|𝑐 =

𝑁 𝑤 𝑖𝑛 𝑐 +1

𝑁 𝑤𝑜𝑟𝑑𝑠 𝑖𝑛 𝑐 + 𝑊 для неизвестных слов

• Обучение

– Вычислить 𝑝 𝑐 и 𝑝 𝑤|𝑐 для всех слов на обучающей выборке

• Классификация

– Посчитать 𝑐𝑀𝐴𝑃 для данного документа


Наивный Байесовский классификатор

Особенности

• Делаются преположения

– независимости слов между собой

– вероятности появления одного и того же слова в начале и конце документа равны

• Вес длинных документов сильно отличается, особенно если слова с большим весом

встречаются несколько раз

• Подвержен систематической ошибке (bias) в сторону принятия решения о классе

– Достаточно одного слова для классификации

• Тем не менее:

– Устойчив к неизвестным словам и тематическому изменению документов

– Прост и быстр

– Используется как точка отсчета при сравнении различных методов


Классификация в векторном пространстве


• Документы представляются точками (или векторами) в многомерном пространстве

• Допущения

– Документы одного класса сгруппированы в одной неразрывной области пространства

– Группы документов из разных классов не пересекаются (или очень редко)

• Подход

– Построение поверхностей, которые разделяют классы


K ближайших соседей

K-nearest neighbors


– нет

• Классификация документа

– Взять K ближайших документов из обучающей выборки

– Определить класс по большинству

• Обычно от 20 до 45 ближайших

• Дистанция/близость

– Jaccard

– Евклидова

– Косинусная

– Вероятностная

5 соседей

3/5 – зеленый

=> Класс – зел.


K ближайших соседей


• Довольно дорогая классификация – надо вычислить все расстояния

• Поверхности, разделяющие классы получаются нелинейными

• Для случая многоклассовой классификации не требуется специальных

преобразований

• Обычно работает лучше наивного Байесовского

• Не склонен с систематической ошибке (bias)

• Большая вариативность (variance), так как сильно зависит от обучающей выборки

• Классификатор Rocchio – на основе близости до центроида класса


Дерево решений

Decision Tree

• Каждый узел в дереве – слово, листья

дерева – классы

• Классификация

– Спуск по дереву до листа (класса) в

зависимости от веса данного слова в

документе


– «Разделяй и властвуй»: рекурсивно

выбирать слово, которое делит данные на

две группы

– Соблюдать баланс между фиттингом к

данным и общностью

• Особенности

– Интерпретируется человеком

– Популярная реализация – C4.5


Правила решений (decision rules)


Линейная регрессия

Линейная регрессия

• Решение классификатора (гипотеза) линейно зависит от слов

– ℎ 𝑑 = ℎ 𝑤1 …𝑤𝑛 = 𝑎0 + 𝑎1𝑤1 + ⋯+ 𝑎𝑛𝑤𝑛 (в идеале = 𝑐)

• Критерий – минимум среднеквадратичной ошибки нашей функции на обучающем множестве

– 𝐽 𝑎0 …𝑎𝑛 = min𝑎0…𝑎𝑛

1

2 𝐷 ℎ 𝑑𝑗 − 𝑐𝑗

2𝐷𝑗=1


– Градиентный спуск, пакетный либо итеративный

– 𝑎𝑘+1 = 𝑎𝑘 − 𝛽𝜕𝐽 𝑎0…𝑎𝑛

𝜕𝑎𝑘

• Решение для бинарной классификации

– По порогу 0.5

• Проблема с тем, что вид данных не обязательно «линеен»

– Хотя разделяющая поверхность вполне может быть плоскостью

1

0

h

w


Логистическая регрессия


• Выберем функцию для гипотезы такую, чтобы она была в интервале [0..1]

– 𝑓 𝑥 =1

1+𝑒𝑥𝑝 −𝑥, ℎ 𝑑 = 𝑓 𝑎0 + 𝑎1𝑤1 + ⋯+ 𝑎𝑛𝑤𝑛

• Вероятностная интерпретация

– log𝑝 𝑐|𝑑

𝑝 𝑐 |𝑑= log

𝑝 𝑐|𝑑

1−𝑝 𝑐|𝑑= 𝑎0 + 𝑎1𝑤1 + ⋯+ 𝑎𝑛𝑤𝑛

– ⇒ 𝑝 𝑐|𝑑 =𝑒𝑥𝑝 𝑎0+𝑎1𝑤1+⋯+𝑎𝑛𝑤𝑛

1+𝑒𝑥𝑝 𝑎0+𝑎1𝑤1+⋯+𝑎𝑛𝑤𝑛, 𝑝 𝑐 |𝑑 =

1

1+𝑒𝑥𝑝 𝑎0+𝑎1𝑤1+⋯+𝑎𝑛𝑤𝑛

• Критерий (по принципу максимального правдоподобия):

– 𝑝 𝑐|𝑑; 𝑎0 …𝑎𝑛 = ℎ𝑐(𝑗) 𝑑𝑗 ∙ 1 − ℎ 𝑑𝑗

1−𝑐(𝑗)𝐷𝑗=1

– log 𝐿 𝑎0 …𝑎𝑛 = 𝑐𝑗 log ℎ 𝑑𝑗 + 1 − 𝑐𝑗 log 1 − ℎ 𝑑𝑗𝐷𝑗=1


– Также, как и линейная регрессия (градиентный спуск)

h

x

𝒄 𝒋 ≡ 𝒄𝒋 = 𝟎𝟏




• Решение – по порогу 0.5, что соответствует 𝑎0 + 𝑎1𝑤1 + ⋯+ 𝑎𝑛𝑤𝑛 ≥ 0

• Разделяющая поверхность линейна

• Случай многих классов

– N бинарных классификаторов

– Мультиномиальная логистическая регрессия (также maximum entropy, MacCallum)

• Связь с персептроном

– Функция гипотезы в персептроне принимает решение либо 1, либо 0

– Критерий – минимум средней линейной ошибки

– Градиентный спуск происходит по немного другой формуле

• 𝑎𝑘+1 = 𝑎𝑘 + 𝛽 𝑐𝑖 − ℎ𝑖 𝑤𝑖


Метод опорных векторов

Support Vector Machines (SVM)

• Функция для гипотезы дает значения либо -1, либо 1 (c)

– ℎ 𝑑 = 𝑠𝑖𝑔𝑛 𝑎 𝑇 ∙ 𝑤 + 𝑏

• Расстояние до разделяющей плоскости и ширина зазора (margin)

– 𝑟 = 𝑐𝑎𝑇∙𝑤+𝑏

𝑎, 𝜌 =

2

𝑎

• Критерий (в случае линейной разделимости):

– Максимизировать ширину зазора 𝜌 =2

𝑎, при условии отстутсвия в нем точек

• 𝑎 𝑇 ∙ 𝑤𝑖 + 𝑏 ≥ 1 если ℎ𝑖 = 1; 𝑎 𝑇 ∙ 𝑤𝑗 + 𝑏 ≤ −1 если ℎ𝑗 = −1

– Задача квадратичной оптимизации с линейными ограничениями

– Найти 𝜆1 …𝜆𝑁: 𝜆𝑖 −1

2 𝜆𝑖𝜆𝑗𝑐𝑖𝑐𝑗𝑤𝑖

𝑇𝑤𝑗𝑗𝑖 максимально, 𝜆𝑖𝑐𝑖 = 0𝑖 ,

– 𝑎 = 𝜆𝑘𝑐𝑘𝑤𝑘𝑘 , 𝑏 = 𝑐𝑘 − 𝑎 𝑇𝑤𝑘


– Sequential minimal optimization (SMO)

𝑎

𝑎 𝑇 ∙ 𝑤𝑘 + 𝑏 = 1

𝑎 𝑇 ∙ 𝑤𝑝 + 𝑏 = −1 𝑎 𝑇 ∙ 𝑤𝑚 + 𝑏 = −1

𝜌 𝑟


Метод опорных векторов

SVM

• Решение

– ℎ 𝑑 = 𝑠𝑖𝑔𝑛 𝜆𝑘𝑐𝑘𝑤𝑘𝑇 ∙ 𝑤𝑘 + 𝑏

• Критерий в случае линейной неразделимости:

– 𝑎 𝑇𝑎 + 𝛽 𝜉𝑖𝑖 ⟶ 𝑚𝑖𝑛, 𝑐𝑖 𝑎 𝑇 ∙ 𝑤𝑖 + 𝑏 ≥ 1 − 𝜉𝑖, 𝜉𝑖 ≥ 0

• Ядра

– Возможно, что данные разделимы линейно в каком-то многомерном пространстве

– Скалярное произведение заменяется на скалярное произведение в этом пространстве

• Полиномиальное 𝑥 𝑇𝑥 2, радиальная базисная функция (RBF), строковое (лекция 4)

• Многоклассовая классификация

– N «один против всех»

– N(N-1)/2 попарных классификаторов


Сравнение эффективности классификаторов

Классификатор Тип Публикация Pmicro=Rmicro

NB вероятностный [Yang and Liu 1999] .795

C4.5 дерево решений [Joachims 1998] .794

SLEEPINGEXPERTS правила решений [Cohen and Singer 1999] .827

LLSF регрессия [Yang and Liu 1999] .849

WIDROW-HOFF инкрементальный линейный [Lam and Ho 1998] .822

ROCCHIO пакетный линейный [Joachims 1998] .799

NNET нейронные сети [Yang and Liu 1999] .838

k-NN на основе примеров [Yang and Liu 1999] .856

SVM метод опорных векторов [Dumais et al. 1998] .870

committee метаклассификатор [Weiss et al. 1999] .878

Sebastiani, Fabrizio. "Machine learning in automated text categorization." ACM computing surveys (CSUR) 34.1 (2002): 1-47.

Новости Reuters-21578 Mod-Apte: 9603 документов для обучения, 3662 для теста, 92 категории,

в среднем 1.235 категорий на документ


Как выбрать классификатор

Выбор

• Протестировать несколько и выбрать лучший (Кэп!)

– Тривиальный (наибольший класс), Байесовский, деревья, регрессия, SVM

– Осознать, почему именно он хорошо работал

• Обычно лучшими считаются SVM и логистическая регрессия

– Но SVM часто надо настраивать – стандартизировать данные, выбирать ядро

– Линейный персептрон

• По виду и количеству данных и классов


Дополнительно

• Иерархическая классификация

– Не особо эффективно, за исключением двухшаговой: на первом шаге определить

примерный класс, на втором - точный

• Библиотеки

– Weka (Java + UI)

– Mallet (Java)

– LibSVM (C++, Java)

– Mahout (Java+HDFS)

– …


Содержание

Введение

Представление данных и выбор атрибутов классификации

Меры эффективности

Классификаторы


Спасибо!

[email protected]

Ulanov nlp-6

Documents

Transcript of Ulanov nlp-6