Evaluation in-nlp

Александр Тарелкин

Руководитель группы инструментов оценки

качества (служба исправления опечаток)

Оценка систем обработки текста

Цели доклада

• Заинтересовать проблемой;

• Побудить к самостоятельному проведению

оценки;

• Подтолкнуть к изучению оценок других;

• Познакомить с основами.

Самостоятельная работа

• Поискать «natural language processing

evaluation»

• B. Krenn & C. Samuelsson. Don’t Panic:

The Linguist’s Guide to Statistics, 1997

• D. Santos. Evaluation in Natural Language

Processing, ESSLLI 2007

Краткий план

Что такое оценка?

Основные метрики

Корпусы

Человеческий фактор

Всякое

Корпусы

Всякое

Evaluation is a systematic determination of a subject's

merit, worth and significance, using criteria governed by

a set of standards.

Wikipedia, Evaluation

Что важно:

– Не только отображение на числовую шкалу

– Систематический подход

– Критерии, определяемые стандартами

Нужно для измерения качества системы

Кому нужна:

– разработчикам

– инвесторам, владельцам бизнеса

– клиентам

– всему сообществу

Важно: оценка отражает не абстрактное

качество, а результат измерения

при решении конкретной задачи.

Поэтому нам интересен не только способ

вычисления, но и поставленная

при измерении задача.

Что такое оценка? Кстати

Квалиметрия, ГОСТ 15467-79 «Качество продукции. Термины»:

1) КАЧЕСТВО ПРОДУКЦИИ (УСЛУГИ) - совокупность свойств продукции

(услуги), обуславливающих ее пригодность удовлетворять

определенные потребности в соответствии с ее назначением.

2) СВОЙСТВО ПРОДУКЦИИ (УСЛУГИ) - объективная особенность

продукции (услуги), проявляющаяся при ее создании, эксплуатации,

использовании по назначению или потреблении (оказание услуги).

Например: точность, надежность, своевременная поставка и т.д.

Для объективной оценки качества объекта необходимо

охарактеризовать его свойства количественно. Для этого:

3) ПОКАЗАТЕЛЬ КАЧЕСТВА - количественная характеристика свойства

объекта, входящего в состав его качества и рассматриваемая

применительно к определенным условиям жизненного цикла объекта.

Что можно оценивать:

– выполнение основной функции

– скорость работы

– потребление системных ресурсов

– удобство использования

– ошибкоустойчивость

и многое другое.

Корпусы

Всякое

Дано:

– классификатор документов

– тестовая выборка

– документы сопоставлены классам

Соотнесем ответы системы с правильными

значениями

P — число документов, по которым

классификатор принял правильное решение

N — размер тестовой выборки

Недостатки: плохо работает, если

распределение классов неравномерно.

Paccuracy

Точность (precision) — доля правильно

отнесенных к классу документов

относительно всех документов, отнесенных

системой к данному классу.

Полнота (recall) — доля правильно

отнесенных к классу документов

относительно всех документов данного

класса.

Таблица контингентности

Класс N Экспертная оценка

положительная отрицательная

Оценка системы положительная True Positive False Positive

отрицательная False Negative True Negative

TPrecall

TPprecision

Релевантные точки

находятся слева от прямой,

а найденные системой —

в овале.

Wikipedia, Информационный поиск

Матрица неточностей (confusion matrix)

– http://en.wikipedia.org/wiki/Confusion_matrix

– http://bazhenov.me/blog/2012/07/21/classification-performance-

evaluation.html#confusion-matrix

F-мера

recallprecision

recallprecisionF

Пусть классификатор не просто

классифицирует, а возвращает ответ, если

документ принадлежит классу.

Например, исправление опечаток в

пользовательских запросах.

TP => COR (correct, верные) + PAR (partial,

частично-верные) + INC (incorrect, неверные,

плохие)

FN => MIS (missing, отсутствующие)

FP => SPU (spurious, ложные)

TN => NON (noncommittal, неопределенные)

SPUINCPARCOR

PARCORprecision

MISINCPARCOR

PARCORrecall

Пусть, у нас есть такие результаты для прогона нашей системы:

COR = 30, PAR = 10, INC = 5, MIS = 5, SPU = 15, NON = 100

Посчитаем полноту и точность того, как наша система исправляет

опечатки в запросах.

P = (30 + 0.5 * 10) / (30 + 10 + 5 + 15) = 0.58 = 58%

R = (30 + 0.5 * 10) / (30 + 10 + 5 + 5) = 0.7 = 70%

А теперь посчитаем полноту и точность того, как наша система

классифицирует, содержит ли запрос опечатки или нет.

P = (30 + 10 + 5) / (30 + 10 + 5 + 15) = 0.75 = 75%

R = (30 + 10 + 5) / (30 + 10 + 5 + 5) = 0.9 = 90%

Мораль: четко следить за тем, какую задачу

ставит перед собой исследователь и что

конкретно он считает.

Функция сравнения ответа и эталона:

– капитализация (А, а)

– равны ли «ё» и «е»

– равны ли «ä» и «a»

– равны ли \u00e4 и a\u0308

– пунктуация

Корпусы

Всякое

Корпусы

– НКРЯ — современные письменные тексты (XX—XXI вв.) и ранние

тексты (XVIII—XX вв.), морфологическая разметка (6 млн слов),

синтаксическая разметка (> 350 тыс слов), параллельные корпусы (en-ru,

de-ru, fr-ru, etc.).

– Открытый корпус — публицистика, блоги, художественная литература;

морфологическая разметка (>16 тыс из 1,5 млн слов).

– Англо-русский параллельный корпус Яндекса — собран по интернету

(1 млн пар параллельных предложений).

Другие ресурсы:

– http://nlpub.ru/Ресурсы

– http://statmt.org/wmt13/

Корпусы

• По типу содержимого:

– сбалансированные — состоят из текстов

разных жанров, предполагается, что

распределение текстов соответствует

таковому в языке (?!)

– пирамидальные — какие-то жанры

представлены более значительно, какие-то

менее

– случайные (opportunistic) — что было

доступно

Корпусы

• По аннотированности:

– неразмеченные

– с морфологической разметкой (PoS-

tagged)

– с синтаксической разметкой (treebanks)

– лингвистически-интерепретированные

Корпусы

• Тестовые наборы:

– искусственные

– ограниченные

– содержат материал для хороших и

ложных срабатываний

• Корпусы:

– естественный контекст

– все разнообразие языка

– реалистичные относительные частоты

явлений

Корпусы

Беликов и др. Корпус как язык: от масштабируемости

к дифференциальной полноте, Dialog 2013

Описывает частые заблуждения при работе с корпусами.

Например, как данные о какой-то конструкции, полученные на каком-то

корпусе обобщаются до суждений о приоритете данной конструкции

в языке в целом.

Важные вопросы, часто остающиеся без внимания:

– сравнение данных по числу вхождений, документов и авторов;

– анализ временной динамики

– анализ распределения результатов по типам источников;

– наличие дублетов и иных систематических факторов, накручивающих

счетчики.

Корпусы

Тем не менее, состав корпусов часто

определяется узким контекстом применения

системы. То есть данные можно взять

у заказчика или собрать из доступных

источников.

Корпусы

Всякое

– системы обработки языка делаются для того, чтобы удовлетворять

нужды людей

– оценивать качество системы в результате будут все равно люди

– часто нет единственно верного решения (как правильно, блогер или

блоггер, Barbara Straisand или Barbra Straisand)

– человеку свойственно ошибаться (два сапога - множественное число

или единственное?)

– оценивают люди, и у людей могут быть разные мнения

– люди меняются

Про мнения:

– внутреннее состояние оценивающего: предубеждения, компетенция,

усталость и т.д.

– системе нет смысла быть правой, если никто из пользователей этой

точки зрения не придерживается

– важно уметь сравнивать несколько мнений:

– согласованность асессоров (inter-rator agreement)

– внутриклассовая корреляция (intraclass correlation)

– однако согласованность нескольких асессоров не всегда важна (если

задача адаптируется под человека)

Корпусы

Всякое

Александр Тарелкин

Руководитель группы

инструментов оценки

качества (служба

исправления опечаток)

alexander.tarelkin@gmail.com

Evaluation in-nlp

Documents

Transcript of Evaluation in-nlp

NLP Trainer’s Training and NLP Trainer’s Evaluation · NLP Trainer’s Training and NLP Trainer’s Evaluation WHAT DOES IT TAKE TO BE A TRAINER? VERSATILITY • CONFIDENCE •

Learning in NLP Transfer

NLP Trainer’s Training & Evaluation · Summary of course 10 ... you need to have a Master NLP Practitioner ... Here are just some of the topics you’ll cover in NLP Trainer’s

Nlp-Automata in Nlp

Crowdsourcing in NLP

Entropy in NLP

Evaluation measures in NLPufal.mff.cuni.cz/~zabokrtsky/courses/npfl124/slides/... · 2020-04-08 · Evaluation measures in NLP ZdeněkŽabokrtský 8thApril2020 NPFL124 Natural Language

(Nlp) Nlp Secrets

Spiritual NLP Practitioner Study Guide - NLP Magicknlpmagick.net/spiritualnlp.pdf · Stua nlp pcti S g Summary: Participating in the Spiritual NLP Practitioner results in: • experience

NLP FOR EXCELLENCEnlp4excellence.com/images/pdf/nlp-for-excellence.pdf · power of NLP NLP FOR EXCELLENCE ... NLP represents an attitude of mind and a way of being in this world How

NLP in Performance Coaching

NLP in English

Robustness Gym: Unifying the NLP Evaluation Landscape

NLP Training - NLP Certification

An NLP Approach to the Evaluation of Web Corpora

Evaluation of NLP Systems - UMIACSresnik/temp/pdf/e.pdf · Evaluation of NLP Systems ... can also be quite misleading because they rarely exercise the full range of a system’s capabilities

Natural Language Processing (NLP) I. Introduction II. Issues in NLP III. Statistical NLP: Corpus-based Approach.

SHARP NLP - Mayo Clinicinformatics.mayo.edu/sharp/images/7/7f/SHARPn_NLP_AUG2013.pdfIntroduction NLP Software cTAKES Evaluation Workbench Manual Annotations Seattle Group Health clinical

Representation in NLP

Gourmet NLP Taster Day › wp-content › uploads › 2019 › 02 › NLP... · Gourmet NLP Taster Day 1-day introduction to NLP Sunday, 24th February 2019 Diploma in NLP: The Currency