Evaluation in-nlp

40

Transcript of Evaluation in-nlp

Page 1: Evaluation in-nlp
Page 2: Evaluation in-nlp

Александр Тарелкин

Руководитель группы инструментов оценки

качества (служба исправления опечаток)

Оценка систем обработки текста

Page 3: Evaluation in-nlp

Цели доклада

• Заинтересовать проблемой;

• Побудить к самостоятельному проведению

оценки;

• Подтолкнуть к изучению оценок других;

• Познакомить с основами.

Page 4: Evaluation in-nlp

Самостоятельная работа

• Поискать «natural language processing

evaluation»

• B. Krenn & C. Samuelsson. Don’t Panic:

The Linguist’s Guide to Statistics, 1997

• D. Santos. Evaluation in Natural Language

Processing, ESSLLI 2007

Page 5: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 6: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 7: Evaluation in-nlp

Evaluation is a systematic determination of a subject's

merit, worth and significance, using criteria governed by

a set of standards.

Wikipedia, Evaluation

Page 8: Evaluation in-nlp

Что такое оценка?

Что важно:

– Не только отображение на числовую шкалу

– Систематический подход

– Критерии, определяемые стандартами

Нужно для измерения качества системы

Page 9: Evaluation in-nlp

Что такое оценка?

Кому нужна:

– разработчикам

– инвесторам, владельцам бизнеса

– клиентам

– всему сообществу

Page 10: Evaluation in-nlp

Что такое оценка?

Важно: оценка отражает не абстрактное

качество, а результат измерения

при решении конкретной задачи.

Page 11: Evaluation in-nlp

Что такое оценка?

Поэтому нам интересен не только способ

вычисления, но и поставленная

при измерении задача.

Page 12: Evaluation in-nlp

Что такое оценка? Кстати

Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:

1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции

(услуги), обуславливающих ее пригодность удовлетворять

определенные потребности в соответствии с ее назначением.

2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность

продукции (услуги), проявляющаяся при ее создании, эксплуатации,

использовании по назначению или потреблении (оказание услуги).

Например: точность, надежность, своевременная поставка и т.д.

Для объективной оценки качества объекта необходимо

охарактеризовать его свойства количественно. Для этого:

3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства

объекта, входящего в состав его качества и рассматриваемая

применительно к определенным условиям жизненного цикла объекта.

...

Page 13: Evaluation in-nlp

Что такое оценка?

Что можно оценивать:

– выполнение основной функции

– скорость работы

– потребление системных ресурсов

– удобство использования

– ошибкоустойчивость

и многое другое.

Page 14: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 15: Evaluation in-nlp

Основные метрики

Дано:

– классификатор документов

– тестовая выборка

– документы сопоставлены классам

Соотнесем ответы системы с правильными

значениями

Page 16: Evaluation in-nlp

Основные метрики

P — число документов, по которым

классификатор принял правильное решение

N — размер тестовой выборки

Недостатки: плохо работает, если

распределение классов неравномерно.

N

Paccuracy

Page 17: Evaluation in-nlp

Основные метрики

Точность (precision) — доля правильно

отнесенных к классу документов

относительно всех документов, отнесенных

системой к данному классу.

Полнота (recall) — доля правильно

отнесенных к классу документов

относительно всех документов данного

класса.

Page 18: Evaluation in-nlp

Основные метрики

Таблица контингентности

Класс N Экспертная оценка

положительная отрицательная

Оценка системы положительная True Positive False Positive

отрицательная False Negative True Negative

FNTP

TPrecall

FPTP

TPprecision

Page 19: Evaluation in-nlp

Релевантные точки

находятся слева от прямой,

а найденные системой —

в овале.

Wikipedia, Информационный поиск

Page 21: Evaluation in-nlp

Основные метрики

F-мера

recallprecision

recallprecisionF

2

Page 22: Evaluation in-nlp

Основные метрики

Пусть классификатор не просто

классифицирует, а возвращает ответ, если

документ принадлежит классу.

Например, исправление опечаток в

пользовательских запросах.

Page 23: Evaluation in-nlp

Основные метрики

TP => COR (correct, верные) + PAR (partial,

частично-верные) + INC (incorrect, неверные,

плохие)

FN => MIS (missing, отсутствующие)

FP => SPU (spurious, ложные)

TN => NON (noncommittal, неопределенные)

Page 24: Evaluation in-nlp

Основные метрики

SPUINCPARCOR

PARCORprecision

MISINCPARCOR

PARCORrecall

5.0

5.0

Page 25: Evaluation in-nlp

Основные метрики

Пусть, у нас есть такие результаты для прогона нашей системы:

COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100

Посчитаем полноту и точность того, как наша система исправляет

опечатки в запросах.

P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%

R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%

А теперь посчитаем полноту и точность того, как наша система

классифицирует, содержит ли запрос опечатки или нет.

P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%

R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%

Page 26: Evaluation in-nlp

Основные метрики

Мораль: четко следить за тем, какую задачу

ставит перед собой исследователь и что

конкретно он считает.

Page 27: Evaluation in-nlp

Основные метрики

Функция сравнения ответа и эталона:

– капитализация (А, а)

– равны ли «ё» и «е»

– равны ли «ä» и «a»

– равны ли \u00e4 и a\u0308

– пунктуация

Page 28: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 29: Evaluation in-nlp

Корпусы

– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние

тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),

синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,

de-ru, fr-ru, etc.).

– Открытый корпус — публицистика, блоги, художественная литература;

морфологическая разметка (>16 тыс из 1,5 млн слов).

– Англо-русский параллельный корпус Яндекса — собран по интернету

(1 млн пар параллельных предложений).

Другие ресурсы:

– http://nlpub.ru/Ресурсы

– http://statmt.org/wmt13/

Page 30: Evaluation in-nlp

Корпусы

• По типу содержимого:

– сбалансированные — состоят из текстов

разных жанров, предполагается, что

распределение текстов соответствует

таковому в языке (?!)

– пирамидальные — какие-то жанры

представлены более значительно, какие-то

менее

– случайные (opportunistic) — что было

доступно

Page 31: Evaluation in-nlp

Корпусы

• По аннотированности:

– неразмеченные

– с морфологической разметкой (PoS-

tagged)

– с синтаксической разметкой (treebanks)

– лингвистически-интерепретированные

Page 32: Evaluation in-nlp

Корпусы

• Тестовые наборы:

– искусственные

– ограниченные

– содержат материал для хороших и

ложных срабатываний

• Корпусы:

– естественный контекст

– все разнообразие языка

– реалистичные относительные частоты

явлений

Page 33: Evaluation in-nlp

Корпусы

Беликов и др. Корпус как язык: от масштабируемости

к дифференциальной полноте, Dialog 2013

Описывает частые заблуждения при работе с корпусами.

Например, как данные о какой-то конструкции, полученные на каком-то

корпусе обобщаются до суждений о приоритете данной конструкции

в языке в целом.

Важные вопросы, часто остающиеся без внимания:

– сравнение данных по числу вхождений, документов и авторов;

– анализ временной динамики

– анализ распределения результатов по типам источников;

– наличие дублетов и иных систематических факторов, накручивающих

счетчики.

Page 34: Evaluation in-nlp

Корпусы

Тем не менее, состав корпусов часто

определяется узким контекстом применения

системы. То есть данные можно взять

у заказчика или собрать из доступных

источников.

Page 35: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 36: Evaluation in-nlp

Человеческий фактор

– системы обработки языка делаются для того, чтобы удовлетворять

нужды людей

– оценивать качество системы в результате будут все равно люди

– часто нет единственно верного решения (как правильно, блогер или

блоггер, Barbara Straisand или Barbra Straisand)

– человеку свойственно ошибаться (два сапога - множественное число

или единственное?)

– оценивают люди, и у людей могут быть разные мнения

– люди меняются

Page 37: Evaluation in-nlp

Человеческий фактор

Про мнения:

– внутреннее состояние оценивающего: предубеждения, компетенция,

усталость и т.д.

– системе нет смысла быть правой, если никто из пользователей этой

точки зрения не придерживается

– важно уметь сравнивать несколько мнений:

– согласованность асессоров (inter-rator agreement)

– внутриклассовая корреляция (intraclass correlation)

– однако согласованность нескольких асессоров не всегда важна (если

задача адаптируется под человека)

Page 38: Evaluation in-nlp

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Page 39: Evaluation in-nlp

Всякое

Page 40: Evaluation in-nlp

Александр Тарелкин

Руководитель группы

инструментов оценки

качества (служба

исправления опечаток)

[email protected]