Kiseleva

19
Получение структуры для поисковых запросов на примере товарных запросов Юлия Киселева SaintPetersburg, 2011

description

 

Transcript of Kiseleva

Page 1: Kiseleva

Получение  структуры  для  поисковых  запросов  на  примере  

товарных  запросов  

 Юлия  Киселева    

Saint-­‐Petersburg,  2011  

Page 2: Kiseleva

План  

•  Цели  данной  работы  •  Описание  разработанного  метода  •  Описание  входных  данных  •  Метрики  для  оценки  •  Базовый  метод    •  Результаты  

18.10.11   2  Сегментация  товарных  запросов  

Page 3: Kiseleva

Поисковые запросы о товарах

Анализ поисковых запросов

Классификация запросов [Bernard J. Jenson et al., 2008] •  Информационные

(80,6%) •  Навигационные (10,2%) •  Транзакционные (9,2  %)

Запрос имеет структуру

Запрос отражает интерес пользователя

Поисковый запрос: dell inspiron 15 2gb

Поисковая  машина  

18.10.11   3  Сегментация  товарных  запросов  

Page 4: Kiseleva

Сегментация запросов

<QUERY> < TERM WORD = "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" /> < TERM WORD = "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" /> < TERM WORD = "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" /> < TERM WORD = "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE = "0.40" /> </ QUERY >

18.10.11   4  Сегментация  товарных  запросов  

Page 5: Kiseleva

 

Описание  процесса  обучения  системы    

18.10.11   5  Сегментация  товарных  запросов  

Page 6: Kiseleva

Входные  данные    

       Словарь  брендов  с  

синонимами  Пример:  Hewlea  Packard  

-­‐>  hp  

     Название  товара:    Dell  

Inspiron  1545  15.6-­‐Inch  Laptop  (Cherry  Red),  2.2GHz  Intel  Pen^um  Dual  Core  T4400  CPU;  2GB  System  Memory;  500GB  Hard  Drive  

Атрибуты  товара:    Brand  –  Dell;  Family  Line    –    dell  Inspiron;  Display  Size  –    15.6  inch;  Memory  capacity  –  2  gb;  Color  –  cherry  Red;  

………  

       Пары(запрос,  выбранный  

пользователем  продукт)  

Запрос:  dell  inspiron  2gb    

БД продуктов

18.10.11   6  Сегментация  товарных  запросов  

Словарьбрендов

ЖурналЩелчковпользова-телей

Page 7: Kiseleva

Автоматическое маркирование запросов  

Token Brand Family Line Display Size Memory Capacity

dell 0.9 0.1 0 0 inspiron 0.1 0.9 0 0

15 0 0 0.95 0.05 2gb   0   0   0   1  

Выбранный пользователем товар = {атрибуты товара}

Вес терма = tf*idf – style

“Документ” - это комбинация всех термов из описания всех атрибутов

Пример: Brand “документ” <„dell‟:14, „ hewlett packard ‟:10, „lenovo‟:9, „asus‟:7>

tf = term frequency in attribute description

idf =

Similarity = косинусное расстояние |⊂|

||log

ii wdD

18.10.11   7  Сегментация  товарных  запросов  

БД продуктов

ЖурналЩелчковпользова-телей

Словарьбрендов

Page 8: Kiseleva

18.10.11   Сегментация  товарных  запросов   8  

Автоматическое маркирование запросов  

Page 9: Kiseleva

18.10.11   Сегментация  товарных  запросов   9  

Улучшение качества автоматического маркирования запросов  

Page 10: Kiseleva

Генерация  синтетических  запросов    

Synthetic queries

               Считаем  вероятность  перехода  

между  атрибутами,  основываясь  на  промаркированной  выборке  

•  Начинаем  со  спец  символа  “$begin  •  Случайным  образом  выбираем  

число    из  [0,  1]  •  Продолжаем  до  специального  

символа  $end  •  Получаем  готовый  синтетический  

запрос  NB  :  Алгоритм  Сглаживания  

   •  Во  время  маркирования  запросов  

мы  сохраняем  словари  для  атрибутов  

•  Для  каждого  терма  считается  вес  быть  промаркированным  конкретным  атрибутом  

•  Затем:  •  Есть  атрибут  “unknown”  

проверяем  словарь  •  Если  находим  несколько  

атрибутов  для  терма  :  выбираем  атрибут  с  наибольшим  весом  

18.10.11   10  Сегментация  товарных  запросов  

Генерация синтетическихзапросов

Синтетические запросы

Page 11: Kiseleva

18.10.11   Сегментация  товарных  запросов   11  

Генерация  синтетических  запросов  (1)  

Page 12: Kiseleva

Conditional Random Fields

12  

)x,...,x,(x=x n21

)y,...,y,(y=y n21-  последовательность атрибутов для этих

n слов

- запрос, состоящий из n слов

))∑ ∑ ix,,(ysµ+i)x,,y,(ytλexp(=i)x,,y,(yfj k

ikki1ijji1ij

i)x,,y,(yt i1ij- вероятность перехода

i)x,,(ys ik- признак

∑ x))(y,fλexp(λ)Ζ(x,1

=λ)x,|p(yj

jj

m1=i

(i)(i) )}y,{(x - обучающее множество

Page 13: Kiseleva

Обучение модели сегментации

 

Модель : Conditional Random Fields (CRF) Атрибуты: the union of all attribute names matched automatically

18.10.11   13  Сегментация  товарных  запросов  

Page 14: Kiseleva

Признаки  для  модели  сегментации  

Общие  признаки:  •  юниграммы  (unigrams)  -­‐  s,  o,  n  ,y.    •  биграммы  (bigrams)  :  de,  el,  ll  •  регулярные  выражения:  «vaio»  -­‐  это  слово,  «15.4»  -­‐  это  число,  

«250gb»  -­‐  это  смешанное  слово.    •  контекстная  информация  Признаки,  характерные  для  чисел:  •  Интервал  Признаки,  характерные  для  «смешанных»  элементов:  •  2gb  =>  “2”  и  “gb”  

Признаки,  основанные  на  словаре  или  словарные  признаки:  

•  Словарь  брендов  •  Словарь  атрибутов  и  слов  

18.10.11   Сегментация  товарных  запросов   14  

Page 15: Kiseleva

Описание  текстового  и  обучающего  множеств  

18.10.11   15  Сегментация  товарных  запросов  

•  Обучающее множество: Query log from Shopping.com September 2009, December 2009 and March 2010

•  29257 queries.  

•  Запросы, принадлежащие категории «Компьютеры» : laptops, hard drives, laptop accessories, printers, memory cards, software

•  mechanical Turk

•  450 запросов в тестовом множестве

Page 16: Kiseleva

Метрики  для  оценки  

           

           

||

)(Pr)(Pr

1

||

q

tecisionqecision

i

qii∑

=

=<=

||

)(Re)(Re

1

||

q

tcallqcall

i

qii∑

=

=<=

18.10.11   16  Сегментация  товарных  запросов  

Page 17: Kiseleva

Оценка  автоматического  маркирования  запросов  

18.10.11   17  Сегментация  товарных  запросов  

0,5  

0,55  

0,6  

0,65  

0,7  

0,75  

0,8  

0,85  

0,9  

0,95  

0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9  

значение  косинусной  метрики  

Точность   Полнота   F-­‐мера  

Page 18: Kiseleva

Оценка    сегментации  запросов  

         

18.10.11   18  Сегментация  товарных  запросов  

0,6  

0,65  

0,7  

0,75  

0,8  

0,85  

0,9  

0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9  

точность

Уровень доверия

M3   база  

(a)  

0,25  

0,35  

0,45  

0,55  

0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9  

полнота

Уровень доверия (b)  

0,4  

0,5  

0,6  

0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9  

F-мера

Уровень  доверия (c)  

Page 19: Kiseleva

Использование  модели  сегментации  

18.10.11   Сегментация  товарных  запросов   19  

БД продуктов

пользователь

Запрос опродукте

Структурированный запросСлово -> атрибут

Использование сегментации в режиме реального времени

Модельсегментации

Продукт из БД

Предсказать сегментацию