Evaluation in-nlp

Post on 10-May-2015

315 views 5 download

Tags:

Transcript of Evaluation in-nlp

Александр Тарелкин

Руководитель группы инструментов оценки

качества (служба исправления опечаток)

Оценка систем обработки текста

Цели доклада

• Заинтересовать проблемой;

• Побудить к самостоятельному проведению

оценки;

• Подтолкнуть к изучению оценок других;

• Познакомить с основами.

Самостоятельная работа

• Поискать «natural language processing

evaluation»

• B. Krenn & C. Samuelsson. Don’t Panic:

The Linguist’s Guide to Statistics, 1997

• D. Santos. Evaluation in Natural Language

Processing, ESSLLI 2007

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Evaluation is a systematic determination of a subject's

merit, worth and significance, using criteria governed by

a set of standards.

Wikipedia, Evaluation

Что такое оценка?

Что важно:

– Не только отображение на числовую шкалу

– Систематический подход

– Критерии, определяемые стандартами

Нужно для измерения качества системы

Что такое оценка?

Кому нужна:

– разработчикам

– инвесторам, владельцам бизнеса

– клиентам

– всему сообществу

Что такое оценка?

Важно: оценка отражает не абстрактное

качество, а результат измерения

при решении конкретной задачи.

Что такое оценка?

Поэтому нам интересен не только способ

вычисления, но и поставленная

при измерении задача.

Что такое оценка? Кстати

Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:

1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции

(услуги), обуславливающих ее пригодность удовлетворять

определенные потребности в соответствии с ее назначением.

2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность

продукции (услуги), проявляющаяся при ее создании, эксплуатации,

использовании по назначению или потреблении (оказание услуги).

Например: точность, надежность, своевременная поставка и т.д.

Для объективной оценки качества объекта необходимо

охарактеризовать его свойства количественно. Для этого:

3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства

объекта, входящего в состав его качества и рассматриваемая

применительно к определенным условиям жизненного цикла объекта.

...

Что такое оценка?

Что можно оценивать:

– выполнение основной функции

– скорость работы

– потребление системных ресурсов

– удобство использования

– ошибкоустойчивость

и многое другое.

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Основные метрики

Дано:

– классификатор документов

– тестовая выборка

– документы сопоставлены классам

Соотнесем ответы системы с правильными

значениями

Основные метрики

P — число документов, по которым

классификатор принял правильное решение

N — размер тестовой выборки

Недостатки: плохо работает, если

распределение классов неравномерно.

N

Paccuracy

Основные метрики

Точность (precision) — доля правильно

отнесенных к классу документов

относительно всех документов, отнесенных

системой к данному классу.

Полнота (recall) — доля правильно

отнесенных к классу документов

относительно всех документов данного

класса.

Основные метрики

Таблица контингентности

Класс N Экспертная оценка

положительная отрицательная

Оценка системы положительная True Positive False Positive

отрицательная False Negative True Negative

FNTP

TPrecall

FPTP

TPprecision

Релевантные точки

находятся слева от прямой,

а найденные системой —

в овале.

Wikipedia, Информационный поиск

Основные метрики

F-мера

recallprecision

recallprecisionF

2

Основные метрики

Пусть классификатор не просто

классифицирует, а возвращает ответ, если

документ принадлежит классу.

Например, исправление опечаток в

пользовательских запросах.

Основные метрики

TP => COR (correct, верные) + PAR (partial,

частично-верные) + INC (incorrect, неверные,

плохие)

FN => MIS (missing, отсутствующие)

FP => SPU (spurious, ложные)

TN => NON (noncommittal, неопределенные)

Основные метрики

SPUINCPARCOR

PARCORprecision

MISINCPARCOR

PARCORrecall

5.0

5.0

Основные метрики

Пусть, у нас есть такие результаты для прогона нашей системы:

COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100

Посчитаем полноту и точность того, как наша система исправляет

опечатки в запросах.

P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%

R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%

А теперь посчитаем полноту и точность того, как наша система

классифицирует, содержит ли запрос опечатки или нет.

P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%

R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%

Основные метрики

Мораль: четко следить за тем, какую задачу

ставит перед собой исследователь и что

конкретно он считает.

Основные метрики

Функция сравнения ответа и эталона:

– капитализация (А, а)

– равны ли «ё» и «е»

– равны ли «ä» и «a»

– равны ли \u00e4 и a\u0308

– пунктуация

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Корпусы

– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние

тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),

синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,

de-ru, fr-ru, etc.).

– Открытый корпус — публицистика, блоги, художественная литература;

морфологическая разметка (>16 тыс из 1,5 млн слов).

– Англо-русский параллельный корпус Яндекса — собран по интернету

(1 млн пар параллельных предложений).

Другие ресурсы:

– http://nlpub.ru/Ресурсы

– http://statmt.org/wmt13/

Корпусы

• По типу содержимого:

– сбалансированные — состоят из текстов

разных жанров, предполагается, что

распределение текстов соответствует

таковому в языке (?!)

– пирамидальные — какие-то жанры

представлены более значительно, какие-то

менее

– случайные (opportunistic) — что было

доступно

Корпусы

• По аннотированности:

– неразмеченные

– с морфологической разметкой (PoS-

tagged)

– с синтаксической разметкой (treebanks)

– лингвистически-интерепретированные

Корпусы

• Тестовые наборы:

– искусственные

– ограниченные

– содержат материал для хороших и

ложных срабатываний

• Корпусы:

– естественный контекст

– все разнообразие языка

– реалистичные относительные частоты

явлений

Корпусы

Беликов и др. Корпус как язык: от масштабируемости

к дифференциальной полноте, Dialog 2013

Описывает частые заблуждения при работе с корпусами.

Например, как данные о какой-то конструкции, полученные на каком-то

корпусе обобщаются до суждений о приоритете данной конструкции

в языке в целом.

Важные вопросы, часто остающиеся без внимания:

– сравнение данных по числу вхождений, документов и авторов;

– анализ временной динамики

– анализ распределения результатов по типам источников;

– наличие дублетов и иных систематических факторов, накручивающих

счетчики.

Корпусы

Тем не менее, состав корпусов часто

определяется узким контекстом применения

системы. То есть данные можно взять

у заказчика или собрать из доступных

источников.

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Человеческий фактор

– системы обработки языка делаются для того, чтобы удовлетворять

нужды людей

– оценивать качество системы в результате будут все равно люди

– часто нет единственно верного решения (как правильно, блогер или

блоггер, Barbara Straisand или Barbra Straisand)

– человеку свойственно ошибаться (два сапога - множественное число

или единственное?)

– оценивают люди, и у людей могут быть разные мнения

– люди меняются

Человеческий фактор

Про мнения:

– внутреннее состояние оценивающего: предубеждения, компетенция,

усталость и т.д.

– системе нет смысла быть правой, если никто из пользователей этой

точки зрения не придерживается

– важно уметь сравнивать несколько мнений:

– согласованность асессоров (inter-rator agreement)

– внутриклассовая корреляция (intraclass correlation)

– однако согласованность нескольких асессоров не всегда важна (если

задача адаптируется под человека)

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Всякое

Александр Тарелкин

Руководитель группы

инструментов оценки

качества (служба

исправления опечаток)

alexander.tarelkin@gmail.com