Evaluation in-nlp

Александр Тарелкин

Руководитель группы инструментов оценки

качества (служба исправления опечаток)

Оценка систем обработки текста

Цели доклада

• Заинтересовать проблемой;

• Побудить к самостоятельному проведению

оценки;

• Подтолкнуть к изучению оценок других;

• Познакомить с основами.

Самостоятельная работа

• Поискать «natural language processing

evaluation»

• B. Krenn & C. Samuelsson. Don’t Panic:

The Linguist’s Guide to Statistics, 1997

• D. Santos. Evaluation in Natural Language

Processing, ESSLLI 2007

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Evaluation is a systematic determination of a subject's

merit, worth and significance, using criteria governed by

a set of standards.

Wikipedia, Evaluation


Что важно:

– Не только отображение на числовую шкалу

– Систематический подход

– Критерии, определяемые стандартами

Нужно для измерения качества системы


Кому нужна:

– разработчикам

– инвесторам, владельцам бизнеса

– клиентам

– всему сообществу


Важно: оценка отражает не абстрактное

качество, а результат измерения

при решении конкретной задачи.


Поэтому нам интересен не только способ

вычисления, но и поставленная

при измерении задача.

Что такое оценка? Кстати

Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:

1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции

(услуги), обуславливающих ее пригодность удовлетворять

определенные потребности в соответствии с ее назначением.

2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность

продукции (услуги), проявляющаяся при ее создании, эксплуатации,

использовании по назначению или потреблении (оказание услуги).

Например: точность, надежность, своевременная поставка и т.д.

Для объективной оценки качества объекта необходимо

охарактеризовать его свойства количественно. Для этого:

3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства

объекта, входящего в состав его качества и рассматриваемая

применительно к определенным условиям жизненного цикла объекта.

...


Что можно оценивать:

– выполнение основной функции

– скорость работы

– потребление системных ресурсов

– удобство использования

– ошибкоустойчивость

и многое другое.




Корпусы


Всякое


Дано:

– классификатор документов

– тестовая выборка

– документы сопоставлены классам

Соотнесем ответы системы с правильными

значениями


P — число документов, по которым

классификатор принял правильное решение

N — размер тестовой выборки

Недостатки: плохо работает, если

распределение классов неравномерно.

N

Paccuracy


Точность (precision) — доля правильно

отнесенных к классу документов

относительно всех документов, отнесенных

системой к данному классу.

Полнота (recall) — доля правильно

отнесенных к классу документов

относительно всех документов данного

класса.


Таблица контингентности

Класс N Экспертная оценка

положительная отрицательная

Оценка системы положительная True Positive False Positive

отрицательная False Negative True Negative

FNTP

TPrecall

FPTP

TPprecision

Релевантные точки

находятся слева от прямой,

а найденные системой —

в овале.

Wikipedia, Информационный поиск


Матрица неточностей (confusion matrix)

– http://en.wikipedia.org/wiki/Confusion_matrix

– http://bazhenov.me/blog/2012/07/21/classification-performance-

evaluation.html#confusion-matrix

http://en.wikipedia.org/wiki/Confusion_matrix

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html








F-мера

recallprecision

recallprecisionF

2


Пусть классификатор не просто

классифицирует, а возвращает ответ, если

документ принадлежит классу.

Например, исправление опечаток в

пользовательских запросах.


TP => COR (correct, верные) + PAR (partial,

частично-верные) + INC (incorrect, неверные,

плохие)

FN => MIS (missing, отсутствующие)

FP => SPU (spurious, ложные)

TN => NON (noncommittal, неопределенные)


SPUINCPARCOR

PARCORprecision

MISINCPARCOR

PARCORrecall

5.0

5.0


Пусть, у нас есть такие результаты для прогона нашей системы:

COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100

Посчитаем полноту и точность того, как наша система исправляет

опечатки в запросах.

P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%

R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%

А теперь посчитаем полноту и точность того, как наша система

классифицирует, содержит ли запрос опечатки или нет.

P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%

R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%


Мораль: четко следить за тем, какую задачу

ставит перед собой исследователь и что

конкретно он считает.


Функция сравнения ответа и эталона:

– капитализация (А, а)

– равны ли «ё» и «е»

– равны ли «ä» и «a»

– равны ли \u00e4 и a\u0308

– пунктуация




Корпусы


Всякое

Корпусы

– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние

тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),

синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,

de-ru, fr-ru, etc.).

– Открытый корпус — публицистика, блоги, художественная литература;

морфологическая разметка (>16 тыс из 1,5 млн слов).

– Англо-русский параллельный корпус Яндекса — собран по интернету

(1 млн пар параллельных предложений).

Другие ресурсы:

– http://nlpub.ru/Ресурсы

– http://statmt.org/wmt13/

http://nlpub.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B



http://statmt.org/wmt13/



Корпусы

• По типу содержимого:

– сбалансированные — состоят из текстов

разных жанров, предполагается, что

распределение текстов соответствует

таковому в языке (?!)

– пирамидальные — какие-то жанры

представлены более значительно, какие-то

менее

– случайные (opportunistic) — что было

доступно

Корпусы

• По аннотированности:

– неразмеченные

– с морфологической разметкой (PoS-

tagged)

– с синтаксической разметкой (treebanks)

– лингвистически-интерепретированные

Корпусы

• Тестовые наборы:

– искусственные

– ограниченные

– содержат материал для хороших и

ложных срабатываний

• Корпусы:

– естественный контекст

– все разнообразие языка

– реалистичные относительные частоты

явлений

Корпусы

Беликов и др. Корпус как язык: от масштабируемости

к дифференциальной полноте, Dialog 2013

Описывает частые заблуждения при работе с корпусами.

Например, как данные о какой-то конструкции, полученные на каком-то

корпусе обобщаются до суждений о приоритете данной конструкции

в языке в целом.

Важные вопросы, часто остающиеся без внимания:

– сравнение данных по числу вхождений, документов и авторов;

– анализ временной динамики

– анализ распределения результатов по типам источников;

– наличие дублетов и иных систематических факторов, накручивающих

счетчики.

Корпусы

Тем не менее, состав корпусов часто

определяется узким контекстом применения

системы. То есть данные можно взять

у заказчика или собрать из доступных

источников.




Корпусы


Всякое


– системы обработки языка делаются для того, чтобы удовлетворять

нужды людей

– оценивать качество системы в результате будут все равно люди

– часто нет единственно верного решения (как правильно, блогер или

блоггер, Barbara Straisand или Barbra Straisand)

– человеку свойственно ошибаться (два сапога - множественное число

или единственное?)

– оценивают люди, и у людей могут быть разные мнения

– люди меняются


Про мнения:

– внутреннее состояние оценивающего: предубеждения, компетенция,

усталость и т.д.

– системе нет смысла быть правой, если никто из пользователей этой

точки зрения не придерживается

– важно уметь сравнивать несколько мнений:

– согласованность асессоров (inter-rator agreement)

– внутриклассовая корреляция (intraclass correlation)

– однако согласованность нескольких асессоров не всегда важна (если

задача адаптируется под человека)




Корпусы


Всякое

Всякое

Александр Тарелкин

Руководитель группы

инструментов оценки

качества (служба

исправления опечаток)

[email protected]

Evaluation in-nlp

Documents

Transcript of Evaluation in-nlp