Kiseleva
-
Upload
nlpseminar -
Category
Education
-
view
1.164 -
download
0
description
Transcript of Kiseleva
Получение структуры для поисковых запросов на примере
товарных запросов
Юлия Киселева
Saint-‐Petersburg, 2011
План
• Цели данной работы • Описание разработанного метода • Описание входных данных • Метрики для оценки • Базовый метод • Результаты
18.10.11 2 Сегментация товарных запросов
Поисковые запросы о товарах
Анализ поисковых запросов
Классификация запросов [Bernard J. Jenson et al., 2008] • Информационные
(80,6%) • Навигационные (10,2%) • Транзакционные (9,2 %)
Запрос имеет структуру
Запрос отражает интерес пользователя
Поисковый запрос: dell inspiron 15 2gb
Поисковая машина
18.10.11 3 Сегментация товарных запросов
Сегментация запросов
<QUERY> < TERM WORD = "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" /> < TERM WORD = "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" /> < TERM WORD = "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" /> < TERM WORD = "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE = "0.40" /> </ QUERY >
18.10.11 4 Сегментация товарных запросов
Описание процесса обучения системы
18.10.11 5 Сегментация товарных запросов
Входные данные
Словарь брендов с
синонимами Пример: Hewlea Packard
-‐> hp
Название товара: Dell
Inspiron 1545 15.6-‐Inch Laptop (Cherry Red), 2.2GHz Intel Pen^um Dual Core T4400 CPU; 2GB System Memory; 500GB Hard Drive
Атрибуты товара: Brand – Dell; Family Line – dell Inspiron; Display Size – 15.6 inch; Memory capacity – 2 gb; Color – cherry Red;
………
Пары(запрос, выбранный
пользователем продукт)
Запрос: dell inspiron 2gb
БД продуктов
18.10.11 6 Сегментация товарных запросов
Словарьбрендов
ЖурналЩелчковпользова-телей
Автоматическое маркирование запросов
Token Brand Family Line Display Size Memory Capacity
dell 0.9 0.1 0 0 inspiron 0.1 0.9 0 0
15 0 0 0.95 0.05 2gb 0 0 0 1
Выбранный пользователем товар = {атрибуты товара}
Вес терма = tf*idf – style
“Документ” - это комбинация всех термов из описания всех атрибутов
Пример: Brand “документ” <„dell‟:14, „ hewlett packard ‟:10, „lenovo‟:9, „asus‟:7>
tf = term frequency in attribute description
idf =
Similarity = косинусное расстояние |⊂|
||log
ii wdD
18.10.11 7 Сегментация товарных запросов
БД продуктов
ЖурналЩелчковпользова-телей
Словарьбрендов
18.10.11 Сегментация товарных запросов 8
Автоматическое маркирование запросов
18.10.11 Сегментация товарных запросов 9
Улучшение качества автоматического маркирования запросов
Генерация синтетических запросов
Synthetic queries
Считаем вероятность перехода
между атрибутами, основываясь на промаркированной выборке
• Начинаем со спец символа “$begin • Случайным образом выбираем
число из [0, 1] • Продолжаем до специального
символа $end • Получаем готовый синтетический
запрос NB : Алгоритм Сглаживания
• Во время маркирования запросов
мы сохраняем словари для атрибутов
• Для каждого терма считается вес быть промаркированным конкретным атрибутом
• Затем: • Есть атрибут “unknown”
проверяем словарь • Если находим несколько
атрибутов для терма : выбираем атрибут с наибольшим весом
18.10.11 10 Сегментация товарных запросов
Генерация синтетическихзапросов
Синтетические запросы
18.10.11 Сегментация товарных запросов 11
Генерация синтетических запросов (1)
Conditional Random Fields
12
)x,...,x,(x=x n21
)y,...,y,(y=y n21- последовательность атрибутов для этих
n слов
- запрос, состоящий из n слов
))∑ ∑ ix,,(ysµ+i)x,,y,(ytλexp(=i)x,,y,(yfj k
ikki1ijji1ij
i)x,,y,(yt i1ij- вероятность перехода
i)x,,(ys ik- признак
∑ x))(y,fλexp(λ)Ζ(x,1
=λ)x,|p(yj
jj
m1=i
(i)(i) )}y,{(x - обучающее множество
Обучение модели сегментации
Модель : Conditional Random Fields (CRF) Атрибуты: the union of all attribute names matched automatically
18.10.11 13 Сегментация товарных запросов
Признаки для модели сегментации
Общие признаки: • юниграммы (unigrams) -‐ s, o, n ,y. • биграммы (bigrams) : de, el, ll • регулярные выражения: «vaio» -‐ это слово, «15.4» -‐ это число,
«250gb» -‐ это смешанное слово. • контекстная информация Признаки, характерные для чисел: • Интервал Признаки, характерные для «смешанных» элементов: • 2gb => “2” и “gb”
Признаки, основанные на словаре или словарные признаки:
• Словарь брендов • Словарь атрибутов и слов
18.10.11 Сегментация товарных запросов 14
Описание текстового и обучающего множеств
18.10.11 15 Сегментация товарных запросов
• Обучающее множество: Query log from Shopping.com September 2009, December 2009 and March 2010
• 29257 queries.
• Запросы, принадлежащие категории «Компьютеры» : laptops, hard drives, laptop accessories, printers, memory cards, software
• mechanical Turk
• 450 запросов в тестовом множестве
Метрики для оценки
||
)(Pr)(Pr
1
||
q
tecisionqecision
i
qii∑
=
=<=
||
)(Re)(Re
1
||
q
tcallqcall
i
qii∑
=
=<=
18.10.11 16 Сегментация товарных запросов
Оценка автоматического маркирования запросов
18.10.11 17 Сегментация товарных запросов
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
значение косинусной метрики
Точность Полнота F-‐мера
Оценка сегментации запросов
18.10.11 18 Сегментация товарных запросов
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
точность
Уровень доверия
M3 база
(a)
0,25
0,35
0,45
0,55
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
полнота
Уровень доверия (b)
0,4
0,5
0,6
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
F-мера
Уровень доверия (c)
Использование модели сегментации
18.10.11 Сегментация товарных запросов 19
БД продуктов
пользователь
Запрос опродукте
Структурированный запросСлово -> атрибут
Использование сегментации в режиме реального времени
Модельсегментации
Продукт из БД
Предсказать сегментацию