Статистические языковые модели в информационном...

64
Статистические языковые модели в информационном поиске Никита Спирин, PhD candidate University of Illinois at Urbana-Champaign, Department of Computer Science Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики n [email protected] [email protected] Skype: spirinus

description

Статистические языковые модели в информационном поиске. Никита Спирин, PhD candidate University of Illinois at Urbana-Champaign , Department of Computer Science Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики. [email protected]. - PowerPoint PPT Presentation

Transcript of Статистические языковые модели в информационном...

Page 1: Статистические языковые модели в информационном поиске

Статистические языковые модели в информационном поиске

Никита Спирин, PhD candidateUniversity of Illinois at Urbana-Champaign,

Department of Computer ScienceМосковский Физико-Технический Институт,

Факультет Управления и Прикладной Математики

[email protected] [email protected] Skype: spirinus

Page 2: Статистические языковые модели в информационном поиске

Что есть информационный поиск (IR)?

• “information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information” [Salton,68]– Information в большинстве случаев есть

текст, но может быть и изображением, видео.– Retrieval в основном есть поиск по запросу,

но может быть и классификация, фильтрация, резюмирование,..

Page 3: Статистические языковые модели в информационном поиске

Зачем поиск?

• Twitter генерирует 250 000 000 сообщений в день.

• 6 000 000 000 фотографий в месяц загружается на Facebook.

• Более 560 000 00 профессиональных фотографий загружается в год на Flickr.

• Размер индекса Google (нижняя оценка на размер Интернета) в 2008 году достиг

1 000 000 000 000 страниц.

Page 4: Статистические языковые модели в информационном поиске

Ключевые компоненты поисковой системы?

ИнтернетИнтернет

Краулер

ПоисковыйИндекс

Ранжирующаяфункция

Page 5: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 6: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 7: Статистические языковые модели в информационном поиске

Обзор моделей ранжирования• 1950 – 1960: зарождение данного научного направления

– Гипотеза об автоматической индексируемости коллекций (Luhn)– Первые эксперименты и выработка принципов оценки работы

поисковых систем (Cleverdon’s Cranfield 1 и Cranfield 2) – Ранние эксперименты по разработке векторной модели

ранжирования (Salton’s прототип-система SMART)• 1970 – 1980: бурное развитие информационного поиска

– Становление векторной модели ранжирования– Модели ранжирования на основе вероятностного подхода (PRP)

• 1990: дальнейшее развитие информационного поиска (новые приложения и теоретизирование подходов и моделей)– Статистические языковые модели– Разработка коллекций для объективного сравнения поисковых систем

• 2000++: Веб поиск, масштабируемость поисковых систем, антиспам– Машинное обучение ранжированию – MapReduce, Hadoop, GFS, …

Page 8: Статистические языковые модели в информационном поиске

Постановка задачи ранжирования

• Дано:– Словарь для данного языка ;– Множество запросов обучения , где

каждое слово из запроса содержится в словаре;– Коллекция документов , где каждый

документ есть упорядоченное множество слов из словаря;

– Для обучающего множества пар запрос/документ задана оценка релевантности

• Найти:– Для нового запроса множество релевантных

документов (возможно упорядоченное) из коллекции .

Page 9: Статистические языковые модели в информационном поиске

Вычисление релевантности: упорядоченное множество или нет?• Стратегия 1 (фильтрация документов)

– R(q) = { dC | f(d,q)=1 }, где f(d,q) {0,1} есть классификатор, индикаторная функция

– Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу.

• Стратегия 2 (ранжирование документов)– R(q) = { dC | f(d,q)> }, где f(d,q) есть

ранжирующая функция; порог фильтрации– Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации.

Page 10: Статистические языковые модели в информационном поиске

++

+ +-

--

--

--

--

--

-

--

+-

-

Классификацияf(d,q)=?

++

++

- -+

-+

--

- --

---

Ранжированиеf(d,q)=?

1

0

0.98 d1 +0.95 d2 +0.83 d3 -0.80 d4 +0.76 d5 -0.56 d6 -0.34 d7 -0.21 d8 +0.21 d9 -

R’(q)

R’(q)

Реальная релевантность R(q)

Вычисление релевантности: упорядоченное множество или нет?

Page 11: Статистические языковые модели в информационном поиске

Вычисление релевантности: упорядоченное множество или нет?• Стратегия 1 (фильтрация документов)

– R(q) = { dC | f(d,q)=1 }, где f(d,q) {0,1} есть классификатор, индикаторная функция

– Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу.

• Стратегия 2 (ранжирование документов)– R(q) = { dC | f(d,q)> }, где f(d,q) есть

ранжирующая функция; порог фильтрации– Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации.

Page 12: Статистические языковые модели в информационном поиске

Модели на основе текстовой близости (1)

• Принцип:– Релевантность документа запросу коррелирует с

текстовой близостью запроса и документа

• Векторная модель ранжирования (VSM)– Документ и запрос представляются, как векторы в

пространстве терминов (10 000++ компонент);– Каждому термину присвоен вес, характеризующий

его информативность, уникальность;– Релевантность оценивается как некоторая мера

близости векторов;

Page 13: Статистические языковые модели в информационном поиске

Модели на основе текстовой близости – формально (2)• Документ есть ;• Запрос есть ;• Вес термина определяется на основе TFIDF, которая

учитывает– Частоту слова в документе TF;– Встречаемость слова в коллекции IDF;– Длину документа;

• Близость определяется на основе нормированного скалярного произведения (косинусная мера).

Page 14: Статистические языковые модели в информационном поиске

Модели на основе текстовой близости (3)

• Преимущества векторной модели ранжирования (VSM):– Дает наилучшие результаты по сравнению с другими

классическими моделями;– Очень проста и понятна в реализации;– Существует множество кейсов применения, коллекций и

benchmark’ов для сравнения и экспериментов;• Недостатки:

– Основана на эвристиках, допускает независимость терминов в запросе и документе;

– Сложно расширяема для добавления предметного знания;– Требует тщательной настройки параметров экспертом;– Не объясняет как представлять документы и запросы.

Page 15: Статистические языковые модели в информационном поиске

Вероятностный Принцип Ранжирования, PRP (1)

• Дано и требуется восстановить отображение .

• Выпишем функцию правдоподобия

и функцию апостериорного распределения параметров модели

Page 16: Статистические языковые модели в информационном поиске

• Выпишем функцию распределения финального ответа для нового прецедента

• Определим функцию потерь при и при , а также байесовский риск

, тогда

Вероятностный Принцип Ранжирования, PRP (2)

Page 17: Статистические языковые модели в информационном поиске

Модели на основе вероятностных соображений (1)• Принцип:

– Какова вероятность того, что данный документ релевантен данному запросу?

• Вероятностная модель ранжирования (PRM):– Рассматриваются три случайные величины

(запрос, документ, релевантность R {0,1});– Цель: упорядочить документы коллекции по

убыванию вероятности соответствия документов запросу, P(R=1|Q,D);

– Возможны различные способы оценки вероятности в формуле P(R=1|Q,D).

Page 18: Статистические языковые модели в информационном поиске

Модели на основе вероятностных соображений (2)• Дискриминативный подход (оценить вероятность

напрямую, построить отображение):– Определить признаки на парах Q x D, например,

# совпавших слов, длина документа, величина IDF самого популярного слова на странице, предсказания базовых ранжирующих функций baseR(Q,D),…

– Используя обучающее множество (запросы, документы, и известные оценки релевантности на парах), оценить параметры модели ранжирования

– Для нового документа породить признаки и применить обученную модель

Page 19: Статистические языковые модели в информационном поиске

• Генеративный подход (факторизация вероятности в произведение случайных величин, оценка релевантности не напрямую)– Вычислить O(R=1|Q,D) по правилу Байеса– Определить порождающую модель P(Q,D|R)

• Возможные случаи– Генерация документов: P(Q,D|R)=P(D|Q,R)P(Q|R)– Генерация запросов: P(Q,D|R)=P(Q|D,R)P(D|R)

)0(

)1(

)0|,(

)1|,(

),|0(

),|1(),|1(

RP

RP

RDQP

RDQP

DQRP

DQRPDQRO

Не влияет на ранжирование

Модели на основе вероятностных соображений (3)

Page 20: Статистические языковые модели в информационном поиске

)0,|(

)1,|(

)0|()0,|(

)1|()1,|(

)0|,(

)1|,(

),|0(

),|1(

RQDP

RQDP

RQPRQDP

RQPRQDP

RDQP

RDQP

DQRP

DQRP

Модель релевантных документов для QМодель нерелевантных документов для Q

Допустим независимость величин A1… Ak Пусть D=d1…dk, где dk {0,1} есть значение величины Ak (тоже самое для Q=q1…qm )

)0),0,|1()1,|1(()1,|0()0,|1(

)0,|0()1,|1(

)1,|0()0,|1(

)0,|0()1,|1(

)0,|0(

)1,|0(

)0,|1(

)1,|1(

)0,|(

)1,|(

),|0(

),|1(

1,1

1,1

0,11,1

1

iiiqdi ii

ii

di ii

ii

di i

i

di i

i

i ii

ii

qприRQAPRQAPПустьRQAPRQAP

RQAPRQAP

RQAPRQAP

RQAPRQAP

RQAP

RQAP

RQAP

RQAP

RQdAP

RQdAP

DQRP

DQRP

ii

i

ii

Модели на основе вероятностных соображений – генерация документа

Page 21: Статистические языковые модели в информационном поиске

Необходимо оценить по 2 параметра для каждого термина Ai: pi = P(Ai=1|Q,R=1): вероятность, что Ai ассоциирован с релевантным классом документов; qi = P(Ai=1|Q,R=0): вероятность, что Ai ассоциирован с нерелевантным классом документов.

1,1 )1(

)1(log),|1(log

ii qdi ii

iiRank

pq

qpDQRO (RSJ модель)

Как оценить данные параметры?

1).(#

5.0).(#ˆ

1).(#

5.0).(#ˆ

docnonrel

Awithdocnonrelq

docrel

Awithdocrelp i

ii

i

Модели на основе вероятностных соображений – генерация документа

Page 22: Статистические языковые модели в информационном поиске

Модели на основе вероятностных соображений – генерация запроса

))0|()0,|(()0|(

)1|()1,|(

)0|()0,|(

)1|()1,|(

)0|,(

)1|,(),|1(

RQPRDQPПустьRDP

RDPRDQP

RDPRDQP

RDPRDQP

RDQP

RDQPDQRO

При допущении о равномерной априорной вероятности получим

Вероятность запроса p(q| d) Априорная релевантность документа

)1,|(),|1( RDQPDQRO

Следовательно, вопрос заключается в том как оценить вероятность запроса по документу? )1,|( RDQP

Процесс состоит из 2 ключевых стадий:•оценить лингвистическую модель для каждого документа D•вычислить релевантности документов запросу на основе этих моделей.

Page 23: Статистические языковые модели в информационном поиске

Другие модели ранжирования

• Подход на основе графических моделей– Принцип: вывести по-байесовски, что запрос

релевантен документу• Подход на основе генетических алгоритмов и

символьной регрессии– Принцип: порождение моделей и отбор наиболее

перспективных• Подход на основе оптимизации эмпирического

риска• Эвристический подход на основе структурных

свойств функции ранжирования

Page 24: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 25: Статистические языковые модели в информационном поиске

Статистические языковые модели - SLM (определение)

• Вероятностное распределение на множестве словарных последовательностей:– p(“Мама мыла раму”) 0.001;– p(“Рама мыла маму”) 0.0000000000001;– p(“Матрица Грамма в унитарном пространстве

эрмитова”) 0.00001.• Может быть использована для порождения текста,

если рассматривать как случайный процесс семплирования слов из данного вероятностного распределения. Поэтому также можно встретить термин генеративная модель языка.

• Зависит от коллекции, тематики, типа модели.

Page 26: Статистические языковые модели в информационном поиске

Статистические языковые модели (примеры применения)

• Позволяет вероятностно описывать естественный язык в рамках теоретически обоснованной гибкой модели.

• С помощью SLM можно отвечать на вопросы:– Для словосочетания “Мама мыла”, какова вероятность того, что

следующим словом будет “раму”? А “машину”? А “танк”? (распознавание речи)

– Если слово “Евро” встретилось 1 раз и “футбол” 4 раза в статье, какова вероятность, что данная статья про спорт по сравнению с финансами? (информационный поиск, категоризация текста)

– Если пользователь любит футбол, какова вероятность того, что он употребит слово “гол” в запросе?(информационный поиск на основе SLM)

Page 27: Статистические языковые модели в информационном поиске

• Текст генерируется последовательно посредством выбора с возвращением так, что слова в последовательности независимы.

• То есть p(w1 w2 ... wn)=p(w1)p(w2)…p(wn).

• Параметры модели: {p(wi)} таковы, что p(w1)+…+p(wN)=1, где (N размер словаря V)

• Формально, ULM есть мультиномиальное распределение на множестве слов.

Простейшая статистическая языковая модель – Unigram Language Model (ULM)

Page 28: Статистические языковые модели в информационном поиске

Text Generation with Unigram LM

ULM с вектором параметров p(w| )

…вектор 0.1базис 0.05матрица 0.1след 0.02…мяч 0.00001

Тема 1:Математика

…базис 0.0005игра 0.25мяч 0.1тренировка 0.2

Тема 2:Спорт

Документ d

Учебник по аналитическойгеометрии

Новость по футболу

Простейшая статистическая языковая модель – Unigram Language Model (ULM)

Семплирование с возвращением

Page 29: Статистические языковые модели в информационном поиске

ULM с вектором параметров p(w| )

Документ d

Простейшая статистическая языковая модель – Unigram Language Model (ULM)

Подсчет встречаемости, обучение

…базис 1игра 50мяч 20тренировка 10гонка 0

…футбол 100

Всего # слов= 1000

1/100050/100020/100010/1000

100/1000

…базис 0.001игра 0.05мяч 0.02тренировка 0.01… футбол 0.1

Как оценить качество модели? Является ли данная модель хорошей?

Модель восстановленная по данному документу присваиваетнаибольшую вероятность данному документу, но обобщающаяспособность такой модели низкая => сглаживание (рассмотрим далее)

Page 30: Статистические языковые модели в информационном поиске

Evaluation of SLMs

• Прямая оценка качества: Как хорошо модель предсказывает данные, по которым она была обучена? – Примеры: правдоподобие, perplexity, кросс энтропия,

KL-divergence (в общем и в целом все эквивалентны) • Косвенная оценка качества: Способствует ли данная модель

повышению качества конечной задачи (перевод, поиск, ..)?– Конкретная метрика проблемно-зависимая– В случае IR мы смотрим на то, как данная модель повышает

качество поиска, что в свою очередь оценивается эвристическими метриками типа (DCG, MRR, MAP, ..)

– Предпосылка данного подхода: более качественная лингвистическая модель приводит к повышению качества решения конечной задачи, но не факт!

Оценка статистических языковых моделей

Page 31: Статистические языковые модели в информационном поиске

• N-gram модель– Имеет вид, p(w1 w2 ... wn)=p(w1)p(w2|w1)…p(wn|w1 …wn-1);– n-gram означает, что модель генерации зависит от

предыдущих n-1 слов;– Например, модель на основе биграмм имеет вид p(w1 ... wn)=p(w1)p(w2|w1) p(w3|w2) …p(wn|wn-1).

• Модели, учитывающие удаленные взаимодействия терминов (Maximum Entropy Language Model, etc.).

• Структурные языковые модели (probabilistic context-free grammar, PCFG).

• В случае информационного поиска используются в большинстве случаев только Unigram Language Model.

Более сложные статистические языковые модели

Page 32: Статистические языковые модели в информационном поиске

Почему используются только языковые модели нулевого порядка (ULM)?

• Сложность перехода к более мощным языковым моделям:– Требуется настраивать больше параметров => требуется

больше данных для качественной настройки (Модель, восстановленная по 100 документам, ужасна).

– Приводят к значительным вычислительным проблемам по времени отклика при запросе и по затратам на хранение.

• Учет структуры текста/предложений не нужен/малоэффективен для выявления тематической релевантности. Однако, используется активно в IE.

• Но применение более сложных моделей может и должно привести в общем случае к повышению качества конечных приложений, в частности поиска!

Page 33: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 34: Статистические языковые модели в информационном поиске

Документ

Статья поБайесовскимсетям

Статья-обзоро чемпионатеЕвропы 2012

Лингвистическая модель

…text ?mining ?inference ?Bayes ?…спорт ?

…сегодня?матч ?продуктивно ?гол ?

ЗапросQ = “машинное обучение”

? Какая модель наиболеевероятно породила данный запрос?

Базовая модель ранжирования с использованием ULM, правдоподобие запроса (1)

Page 35: Статистические языковые модели в информационном поиске

d1

d2

dN

qd1

d2

dN

LMs документов

p(q| d1)

p(q| d2)

p(q| dN)

Правдоподобие запроса

Базовая модель ранжирования с использованием ULM, правдоподобие запроса (2)

2 ключевых вопроса:•Какую вероятностную модель следует использовать?•Как эффективно вычислить di

?

Page 36: Статистические языковые модели в информационном поиске

• Multi-Bernoulli: моделирует наличие/отсутствие слов– q= (x1, …, x|V|), xi =1 если слово wi есть в документе; xi =0 если нет;

– Параметры: { p(wi=1|d), p(wi=0|d)}, так что p(wi=1|d)+ p(wi=0|d) = 1.

• Мультиномиальное (ULM): моделирует частоту слов– Q = q1,…qm , где qj есть слово из запроса

– c(wi,q) есть частота слова wi в запросе Q

– Parameters: {p(wi|d)} таковы, что p(w1|d)+… p(w|v||d) = 1.

| | | | | |

1 | |1 1, 1 1, 0

( ( ,..., ) | ) ( | ) ( 1| ) ( 0 | )i i

V V V

V i i i ii i x i x

p q x x d p w x d p w d p w d

| |( , )

11 1

( ... | ) ( | ) ( | ) i

Vmc w q

m j ij i

p q q q d p q d p w d

Большинство работ используют мультиномиальное распределение, что показывает наилучшие результаты согласно вычислительным экспериментам.

Различные языковые модели генерации текста

Page 37: Статистические языковые модели в информационном поиске

Ключевой принцип/задача в SLM-IR

• Задача поиска => Задача оценки лингвистической модели документа p(wi|d)

• В лингвистических моделях сглаживание играет ключевую роль, что в свою очередь является ключевым фактором в различии соответствующих ранжирующих функций.

Page 38: Статистические языковые модели в информационном поиске

• Все методы сглаживания основаны на идее:– Дисконтировать вероятность слов, существующих в документе;– Перераспределить “отобранную” вероятность среди слов,

несуществующих в документе.• Лапласовское сглаживание (additive smoothing) предлагает

прибавлять единицу к частоте каждого слова и нормализовывать.

( , ) 1( | )

| | | |

c w dp w d

d V

Лапласов фактор

Размер словаря

Частота w в d

Длина документа d (общее число слов)

Методы сглаживания

Page 39: Статистические языковые модели в информационном поиске

P(w)

Word w

Оценка по ММП

wordsallofcountwofcount

ML wp )(

Сглаженная LM

Иллюстрация идеи сглаживания LM

Page 40: Статистические языковые модели в информационном поиске

• Правильно ли рассматривать все слова одинаково? – Нет.

• Мы можем использовать языковую модель, построенную на основе коллекции для персонифицированной обработки слов.

Дисконтированная ММП оценка

Языковая модель коллекции

( | )( | )

( | )DML

d

p w d if w is seen in dp w d

p w REF otherwise

Развитие идеи: Сглаживание на основе коллекции документов (Jelinek-Mercer)

Page 41: Статистические языковые модели в информационном поиске

Развитие идеи: Сглаживание на основе коллекции документов c априорным распределением (Dirichlet)

• Формально распределение Дирихле есть

• Примечательным свойством распределения Дирихле является его связь с мультиномиальным:

• А следовательно,

, где .

согласно Байесовскому выводу, имеем:

Page 42: Статистические языковые модели в информационном поиске

Query Type J elinek-Mercer Dirichlet Abs. Discounting

Title 0.228 0.256 0.237Long 0.278 0.276 0.260

Relative performance of JM, Dir. and AD

0

0.1

0.2

0.3

JM DIR AD

Method

precision

TitleQuery

LongQuery

Сравнение простых моделей ранжирования на основе статистических языковых моделей

Page 43: Статистические языковые модели в информационном поиске

( | )( | )

( | )DML

d

p w d if w is seen in dp w d

p w REF otherwise

Дисконтированная оценка ММП

ULM коллекции

Принцип ранжированиясо сглаживанием в общей форме

Общая формула сглаживания

0),(,

0),(,0),(,

0),(, 0),(,

)|(log),(log||)|(

)|(log),(

)|(log),()|(log),()|(log),(

)|(log),()|(log),(

)|(log),()|(log

dwcVw Vwd

d

DML

dwcVwd

dwcVw VwdDML

dwcVw dwcVwdDML

Vw

REFwpqwcqREFwp

dwpqwc

REFwpqwcREFwpqwcdwpqwc

REFwpqwcdwpqwc

dwpqwcdqp

Почему сглаживание особенно важно в случае информационного поиска?

Page 44: Статистические языковые модели в информационном поиске

, ( , ) 0( , ) 0

( | )log ( | ) ( , ) log | | log ( , ) ( | )

( | )DML

dw V c w d w Vdc w q

p w dp q d c w q q c w q p w REF

p w REF

Не важно для ранжирования

IDF-дисконтирование

TF весНормализация длины документа(длинные документы дисконтируются меньше)

• Сглаживание коллекцией p(w|C) есть TFIDF + норм. длины, а следовательно сглаживание есть реализация классических эвристик информационного поиска.

• SLM-IR с простым сглаживанием может быть также эффективно вычислена, как и классические модели ранжирования.

Суммирование по словам из запроса и документа

Сравнение с классическими эвристиками информационного поиска

Page 45: Статистические языковые модели в информационном поиске

Стадия 1Сглаживание пропущенныхслов по-байесовски

Стадия 2 Моделирование шума в запросе

Двустадийное сглаживание (Dirichlet + Jelinek-Mercer)

LM коллекции

Языковая модель пользователя(аппроксимация по коллекции p(w|C))

Page 46: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 47: Статистические языковые модели в информационном поиске

Перечень продвинутых моделей ранжирования на основе SLM

• Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG)

• Кластерное сглаживание (cosine, LDA, PLSI)• Транслитерационная модель (семантическое

сглаживание, кросс-языковое сглаживание)• Модель на основе полного Байесовского вывода• Модель, моделирующая шум в запросе на основе

смеси распределений (определение информативных и неинформативных терминов в запросе)

Page 48: Статистические языковые модели в информационном поиске

Перечень продвинутых моделей ранжирования на основе SLM

• Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG)

• Кластерное сглаживание (cosine, LDA, PLSI)• Транслитерационная модель (семантическое

сглаживание, кросс-языковое сглаживание)• Модель на основе полного Байесовского вывода• Модель, моделирующая шум в запросе на основе

смеси распределений (определение информативных и неинформативных терминов в запросе)

Page 49: Статистические языковые модели в информационном поиске

Языковые модели с “длинным” горизонтом

• Учитывают последовательные интеракции терминов в запросе:

• Учитывают структуру запроса и документа:

• Данные модели не приводят к значительному повышению качества поиска, так как:– Требуется настройка колоссального числа параметров;– Эффект от моделирования последовательности слов в

запросе не значителен и учитывается косвенно в ULM.

Page 50: Статистические языковые модели в информационном поиске

Кластерное сглаживание (1)

• Идея:– Кластеризовать документы и сгладить языковую

модель документа на основе языковой модели соответствующего кластера документов.

• Согласно экспериментам данный подход не приводит к значимому увеличению качества.

• Причина: жесткая кластеризация и неудачная настройка параметров приводят к тому, что модель дисконтирует ключевые слова из данного кластера.

Page 51: Статистические языковые модели в информационном поиске

Кластерное сглаживание - Dirichlet (2)

• Предпосылка:– Коллекция документов состоит из k тем.– Каждый кластер представляется как нечеткое

распределение на множестве тем.

• По результатам экспериментов данный подход явно показывает положительный эффект от кластерного сглаживания.

• Однако, данный подход не используется на практике для больших коллекций из-за трудоемкости построения LDA для больших коллекций.

Page 52: Статистические языковые модели в информационном поиске

Кластерное сглаживание – центрирование на документах (3)

• Что делать если документ находится на границе кластеров?

• Осуществляем сглаживание на основе соседей.

Page 53: Статистические языковые модели в информационном поиске

• Мотивация:– Все рассмотренные модели осуществляют поиск на основе

слов непосредственно указанных в запросе. Теряем ли мы часть важных документов при этом? – Да.

• Транслитерационная модель учитывает семантические связи между словами в запросе и документах

• Позволяет увеличить качество поиска значительно (полнота), но в свою очередь возникают новые вопросы, связанные с обучением транслитерационной модели и эффективностью исполнения запросов.

1

( | , ) ( | ) ( | )j

m

t i j jw Vi

p Q D R p q w p w D

Транслитерационная модель Обычная LM

Транслитерационная языковая модель ранжирования

Page 54: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 55: Статистические языковые модели в информационном поиске

• Мотивация:– Модели ранжирования на основе близости документов и

вероятностных методов генерации документов легко позволяют учитывать обратную связь по предпочтениям пользователей.

– Модели на основе правдоподобия запроса (на основе статистических языковых моделей) не позволяют легко учитывать данную информацию.

• Подход:– Аналогично векторной модели ранжирования мы

представим документ и запрос в одном пространстве (теперь вероятностном) и определим меру близости для оценки релевантности.

Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

Page 56: Статистические языковые модели в информационном поиске

Обратная связь в классической векторной модели ранжирования

Исходный запрос

+qq

+ +

+++ +

+

+++

+

+

+

+

+-

---

--

-

-

--

-

-

--

--

--

-

-

--

--

-

-

-+ + +

Нерелевантные документы

Новый запрос

Релевантные документы

Page 57: Статистические языковые модели в информационном поиске

( 1| , ) ( | , 1)O R Q D P Q D R

( | , 1)( 1| , )

( | , 0)

P D Q RO R Q D

P D Q R

Генерация документов:

Правдоподобие запроса(языковая модель):

Релевантные док.

Нерелевантные док.

Модель “релевантных”запросов

P(D|Q,R=1)

P(D|Q,R=0)

P(Q|D,R=1)

(q1,d1,1)(q1,d2,1)(q1,d3,1)(q1,d4,0)(q1,d5,0)

(q3,d1,1)(q4,d1,1)(q5,d1,1)(q6,d2,1)(q6,d3,0)

Прямой запрос:- P(Q|D,R=1) языковая модель достигает лучшего качества.

Обратная связь: - P(D|Q,R=1) улучшаема для данного

запроса и новых документов - P(Q|D,R=1) улучшаема, но для новых запросов и данного документа.

Обратная связь в моделях на основе вероятностного принципа ранжирования

Page 58: Статистические языковые модели в информационном поиске

• Компоненты:– Модель представления: статистическая языковая

модель;– Функция близости: KL-расстояние.

Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

Не важно для ранжирования

Page 59: Статистические языковые модели в информационном поиске

• ММП оценка языковой модели запроса имеет вид:

• Выпишем формулу ранжирования документов на основе KL-расстояния:

Связь с базовой моделью на основе правдоподобия запроса

Page 60: Статистические языковые модели в информационном поиске

Запрос Q

D

)||( DQD

Документ DПоисковаявыдача

Обратная связьF={d1, d2 , …, dn}

FQQ )1('

Алгоритм разделениясмеси

Q

FМодель обратной связи

Модель учета обратной связи

Page 61: Статистические языковые модели в информационном поиске

План доклада

• Базовые понятия– Обзор моделей ранжирования– Введение в статистические языковые модели

• Базовая модель ранжирования на основе статистических языковых моделей

• Продвинутые модели ранжирования на основе статистических языковых моделей

• Модель ранжирования на основе вероятностного расстояния статистических языковых моделей

• Заключение

Page 62: Статистические языковые модели в информационном поиске

• Преимущества:– Теоретическое обоснование (понятная настройка параметров,

обоснованные вероятностные предположения, обобщает существующие подходы).

– Расширяема для специальных задач (тематики, поиск отзывов..).– Масса исследований в смежных областях (NLP, сигналы,..).– Достигает превосходного качества ранжирования и сравнима,

либо доминирует классические модели ранжирования.– Позволяет учитывать обратную связь о релевантности

документов.• Недостатки:

– Требует задание генеративного подхода (трудно оценить).– Вычислительно более дорогостоящая для достижения схожего

качества ранжирования.

Сравнение классических моделей ранжирования и на основе статистических языковых моделей

Page 63: Статистические языковые модели в информационном поиске

• Теоретическое обоснование применения языковых моделей в поиске.

• Эмпирически модели данного семейства показывают превосходное качество в задаче ранжирования: – Базовая модель ранжирования с сглаживанием по Дирихле– Базовая модель ранжирования + предметные априорные

оценки релевантности документов (URL, PageRank,..).– Транслитерационная модель учитывает семантические

связи между словами одного и разных языков.– Модель с KL-расстоянием – наилучший способ учесть

обратную связь о релевантности документов.– Продвинутые модели (смеси распределений, байесовский

вывод) демонстрируют как можно расширять модель.• Полностью автоматическая настройка параметров.

Статистические языковые модели в информационном поиске – status quo

Page 64: Статистические языковые модели в информационном поиске

Спасибо за внимание!

• Никита Спирин, PhD candidate• University of Illinois at Urbana-Champaign, Department of Computer Science• Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики

[email protected] [email protected] Skype: spirinus