Pavel Braslavskii - Query Analysis

81
Анализ поисковых запросов Павел Браславский Павел Браславский CS клуб Екатеринбург 5 и 6 мая 2011

description

Pavel Braslavskii. Query Analysis. May 5-6 2011, Ekaterinburg, CS club

Transcript of Pavel Braslavskii - Query Analysis

Page 1: Pavel Braslavskii - Query Analysis

Анализ поисковых запросов

Павел БраславскийПавел Браславский

CS клуб Екатеринбург

5 и 6 мая 2011

Page 2: Pavel Braslavskii - Query Analysis

ПланПлан

• Введение, характеристики потока запросов, данные для анализа

• Сегментация• Тематическая классификацияТематическая классификация • Близкие запросы• Практические задания

+ ИМАТ2011, EDBT/RuSSIR2011

2Павел Браславский ‐ Анализ запросов

Page 3: Pavel Braslavskii - Query Analysis

ВВЕДЕНИЕ

Павел Браславский ‐ Анализ запросов 3

Page 4: Pavel Braslavskii - Query Analysis

Предварительные замечанияПредварительные замечания

Л б МП• Логи запросов – «опыт» и богатство МП• Современный поиск: «меньше информации, больше 

контекста»контекста»• Мало открытых данных ( проблема для 

академических исследований)• Проблемы с персональными данными (приватность)• Очень короткие тексты – сложность анализа

ф б• Недостаток информации компенсируется большими объемами данных (веб)

Павел Браславский ‐ Анализ запросов 4

Page 5: Pavel Braslavskii - Query Analysis

Статистика запросов к ЯндексуСтатистика запросов к Яндексу

Павел Браславский ‐ Анализ запросов 5

Page 6: Pavel Braslavskii - Query Analysis

Прямой эфирПрямой эфир

6Павел Браславский ‐ Анализ запросов

Page 7: Pavel Braslavskii - Query Analysis

Личная история запросовЛичная история запросов

Павел Браславский ‐ Анализ запросов 7

Page 8: Pavel Braslavskii - Query Analysis

Статистика слов запросовСтатистика слов запросов

Павел Браславский ‐ Анализ запросов 8

Page 9: Pavel Braslavskii - Query Analysis

Павел Браславский ‐ Анализ запросов 9

Page 10: Pavel Braslavskii - Query Analysis

Павел Браславский ‐ Анализ запросов 10

Page 11: Pavel Braslavskii - Query Analysis

Traffic Volume Over a DayTraffic Volume Over a Day

8% 8%Note the drop in query volume during off-

6% 6%

Note the drop in query volume during offpeak time, and its subsequent rise throughout the remainder of the day.

4%% of Daily

Traffic4%

2% 2%

Total QueriesDistinct Queries

0%0 6 12 18 24

Hour of Day

0%Distinct Queries

Павел Браславский ‐ Анализ запросов 11[Beitzel]

Page 12: Pavel Braslavskii - Query Analysis

Динамика запросовДинамика запросов

htt //i t d /

12Павел Браславский ‐ Анализ запросов

http://interes.yandex.ru/

Page 13: Pavel Braslavskii - Query Analysis

Несколько цифрНесколько цифр

• Длина запроса 2‐3 слова

• Поисковая сессия в среднем 3 запросаПоисковая сессия в среднем 3 запроса

• 2‐3% сформулированы как вопрос

• 12‐15% запросов содержат опечатки

Павел Браславский ‐ Анализ запросов 13

Page 14: Pavel Braslavskii - Query Analysis

Запросы вопросыЗапросы – вопросы

http://company.yandex.ru/facts/researches/ya_search_2009.xml

Павел Браславский ‐ Анализ запросов 14

Page 15: Pavel Braslavskii - Query Analysis

Классификация запросов / информационных потребностей (Broder, 2002)

Павел Браславский ‐ Анализ запросов 15Baeza‐Yates

Page 16: Pavel Braslavskii - Query Analysis

Category BreakdownCategory Breakdown

• Query lists for each category formed by a team of human dit

Sampled Categorized Query Stream Breakdown

Personal Finance

3%editors

• Query stream classified by exactly matching each query

Computing9%

Research & Learn

Travel5%

Other16%

exactly matching each query to category lists

Learn9%

Entertainment13%

Shopping

Sports3%

5%

Games5%

Holidays1%

Porn10%

pp g13%

Health5%

Home5%

US Sites3%

Павел Браславский ‐‐ Анализ запросов 16[Beitzel]

Page 17: Pavel Braslavskii - Query Analysis

Category Popularity Over a DayCategory Popularity Over a Day

Categorical Coverage Over TimeP ornEnt ert ainm entGam esHealt hP ersonal FinanceShopping

3%

4%

ge 6%

7%

8%

olum

e

ShoppingM usicUSSit esVol u m e

2%

3%

age

Cove

rag

4%

5%

6%

e of

Tot

al V

o

1%Per

cent

a

1%

2%

3%

Per

cent

age

0%0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hour of Day

0%

17[Beitzel]Павел Браславский ‐ Анализ запросов

Page 18: Pavel Braslavskii - Query Analysis

Category Popularity Over Six MonthsCategory Popularity Over Six Months

Holidays2%

Sept Oct Nov Dec Jan

Shoppingy

1%

pp g

2%Sports Government

0%

1%% ofTotalQueryStream

0%Sept Oct Nov Dec Jan Feb

Months

18[Beitzel]Павел Браславский ‐ Анализ запросов

Page 19: Pavel Braslavskii - Query Analysis

Pearson Correlations for Selected Categories Over A Day

0.5

1.00 6 12 18 24

0 5

1.0Personal Finance 0.0

Music

0.0

0.5

Entertainment Movies1.0

1.0 0.0

0.5

ComputingGames

0.0

0.5

0 6 12 18 24

Porn Government

PearsonCorrelation

19

Hour of Day

[Beitzel]Павел Браславский ‐ Анализ запросов

Page 20: Pavel Braslavskii - Query Analysis

Источники и типы данныхИсточники и типы данных

Ji l 2010

Павел Браславский ‐ Анализ запросов 20

Jiang et al. 2010

Page 21: Pavel Braslavskii - Query Analysis

Какая информация у нас есть?Какая информация у нас есть?

• текст запроса

• времявремя

• IP география

• Cookie  (уникальный) пользователь

• клики на результатах поискаклики на результатах поиска

• (персональные данные, соцдем)

Павел Браславский ‐ Анализ запросов 21

Page 22: Pavel Braslavskii - Query Analysis

Данные ( методы)Данные ( методы)

• отдельные запросы

• список запросовсписок запросов

• + время

• + сниппеты/документы

• + клики+ клики

• …Яндекс: ~6 Кбайт/запрос + ~0,5 Кб/клик

Павел Браславский ‐ Анализ запросов 22

Page 23: Pavel Braslavskii - Query Analysis

Доступные данныеДоступные данные

• Excite 1997, 1999, 2001

• AOL 2006AOL 2006

• ИМАТ 2004

• MSN Search query Log excerpt (RFP 2006 dataset))

• …

23Павел Браславский ‐ Анализ запросов

Page 24: Pavel Braslavskii - Query Analysis

Excite 1997Excite 1997

З (16 б 1997 )• Запросы за один день (16 сентября 1997 г.)• userId, timeStamp, query• ~1M запросов (много повторов)1M запросов (много повторов)

0C6B5395895CD808 970916125351 henri rousseau0C6B5395895CD808 970916125511 henri rousseau+tigerg949946B881F137F0 970916115517 "pharmacy"949946B881F137F0 970916115550 prescriptions91A98BC9BEDCF053 970916075435 australian+chat+victoria61305D2ADC74BC78 970916095742 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet61305D2ADC74BC78 970916095846 dailyplanet33D1A0D49E8DB2AB 970916144916 maizehighschool33D1A0D49E8DB2AB 970916144951 maize high schoolFCBB8401805D783F 970916212508 warez strata studio proFCBB8401805D783F 970916212541 warez mac12FE04344578F249 970916202819 "midwife conference"12FE04344578F249 970916202924 midwifery477CC4190EF76EB4 970916165602 nrwmac477CC4190EF76EB4 970916172706 npac477CC4190EF76EB4 970916175242 nrwmac

Павел Браславский ‐ Анализ запросов 24

Page 25: Pavel Braslavskii - Query Analysis

ИМАТ 2004ИМАТ 2004

й * %• 7 дней * 10% от 5‐10 миллионов запросов в день  3,5 Гб

<UID1><запрос1> <время> <найдено документов> <номер страницы>

<URL1> <время выбора><URL1> <время выбора><URL2> <время выбора>...

<запрос2> <время> <найдено документов> <номер страницы><запрос2> <время> <найдено документов> <номер страницы><URL1> <время выбора><URL2> <время выбора> ...

...<UID2>

...http://company yandex ru/academic/grant/datasets description xml

Павел Браславский ‐ Анализ запросов 25

http://company.yandex.ru/academic/grant/datasets_description.xml

Page 26: Pavel Braslavskii - Query Analysis

AOL 2006AOL 2006

• Большой скандал!!!

• ~20M web queries from ~650k users over20M web queries from  650k users over three months

AnonID Query QueryTime ItemRank ClickURL993 myspace.co 01.03.2006 12:13993 myspace.com 01.03.2006 12:13993 googl 01.03.2006 15:03

h b dk d h // h b dk d993 chasebadkids.net 03.03.2006 16:55 1 http://www.chasebadkids.net

1268 ozark horse blankets 01.03.2006 17:39 8 http://www.blanketsnmore.com1268 www.ghostrockranch.com 04.03.2006 13:581268 openrangeht.zachsairforce.com 09.03.2006 22:381268 sstack.com 11.03.2006 0:171268 b 12 03 2006 18 591268 www.mecab.org 12.03.2006 18:591268 www.raindanceexpress.com 18.03.2006 20:131268 www.victoriacostumiere.com 19.03.2006 0:261268 osteen‐schaztberg.com 21.03.2006 17:55

1268 osteen‐schatzberg.com 21.03.2006 17:55 1 http://www.osteen‐schatzberg.com

Павел Браславский ‐ Анализ запросов 26

1268 osteen‐schatzberg.com 21.03.2006 17:55 2 http://www.osteen‐schatzberg.com

Page 27: Pavel Braslavskii - Query Analysis

MSN Search query Log excerptMSN Search query Log excerpt• 15 million queries• 15 million queries • Sampled over one month • Queries from the US site (mostly English) 

Per query attributes included: • Session ID • Time‐stampTime stamp• Query string • Number of results on results page • Results page number p g

Data per query for each result clicked: • URL • Associated query • Position on results page • Time‐stamp 

Павел Браславский ‐ Анализ запросов 27

Page 28: Pavel Braslavskii - Query Analysis

СЕГМЕНТАЦИЯ ЗАПРОСОВ

28Павел Браславский ‐ Анализ запросов

Page 29: Pavel Braslavskii - Query Analysis

Сегментация запросовСегментация запросов

Сегментация: 

1 поиск1. поиск

2. дальнейшая обработка запросов

международный почтамт | москвамолодежный отдых | в турцииофициальный сайт | автоваз

вечерняя москва vs пицца москваофициальный сайт | автовазКупить | кроссовки | Nike Zoom BBмагазин | рыбачьте с намиирина круг | пусть сейчас я плачу| слушать сбербанк россии | в алтайском крае

банк москвы vs банки москвы

сбербанк россии | в алтайском крае знак зодиака | близнецынино катамадзе | билеты Смысл названия | рассказа | матренин двор

| | | б

29

Сергей Тармашев | Корпорация | скачать | бесплатно 

Павел Браславский ‐ Анализ запросов

Page 30: Pavel Braslavskii - Query Analysis

Сегментация: подходыСегментация: подходы

• похоже на выделение устойчивых словосочетаний• + микросинтаксис• лог vs корпус текстов• ML (больше признаков, более богатое описание)• внешние ресурсы (Wikipedia)р ур ( p )• эвристики ([дима билан] [димабилан])

Павел Браславский ‐ Анализ запросов 30

Page 31: Pavel Braslavskii - Query Analysis

Сегментация на основе логаСегментация на основе лога

conn(S) = freq(S)*I(w1…wn‐1;w2…wn)

msdn library visual studio

34259: (msdn library)[5110] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]29149: msdn[47658] library[209682] (visual studio)[29149]5110: (msdn library)[5110] visual[23873] studio[53622]41: (msdn library visual studio)[41]7: msdn[47658] (library visual studio)[7]0: msdn[47658] library[209682] visual[23873] studio[53622]

Risvik et al. WWW2003

Павел Браславский ‐ Анализ запросов 31

Page 32: Pavel Braslavskii - Query Analysis

Сегментация на основеMLСегментация на основе ML

нино | катамадзе | билеты  

(0, 1, 0, 1, 1, 0) (1, 1, 0, 1, 0, 1)

Bergsma and Wang, 2007

Павел Браславский ‐ Анализ запросов 32

g g,

Page 33: Pavel Braslavskii - Query Analysis

Сегментация: «наивный подход»Сегментация: «наивный подход»

На основе веб‐корпуса n‐грамм

Hagen at al SIGIR2010

Павел Браславский ‐ Анализ запросов 33

Hagen at al. SIGIR2010

Page 34: Pavel Braslavskii - Query Analysis

ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ

Павел Браславский ‐ Анализ запросов 34

Page 35: Pavel Braslavskii - Query Analysis

Тематическая классификацияТематическая классификация

?Зачем?• релевантность (в т.ч. рекламы)р ( р )• вертикальные поискиДанныеДанные• список запросов• коллекция текстов• вебвеб• клики

Павел Браславский ‐ Анализ запросов 35

Page 36: Pavel Braslavskii - Query Analysis

Selectional Preferences: Step 1Selectional Preferences: Step 1

• Obtain a large log of unlabeled web queries

• View each query as pairs of lexical units:View each query as pairs of lexical units:– <head, tail>

O l li bl i f 2– Only applicable to queries of 2+ terms

– Queries with n terms form n‐1 pairs

– Example: “directions to DIMACS” forms two pairs:

• <directions to DIMACS> and <directions to<directions, to DIMACS> and <directions to, DIMACS>

Павел Браславский ‐ Анализ запросов 36[Beitzel]

Page 37: Pavel Braslavskii - Query Analysis

Selectional Preferences: Step 2Selectional Preferences: Step 2

Obt i t f ll l b l d i• Obtain a set of manually labeled queries• Check the heads and tails of each pair to see if 

h i h ll l b l dthey appear in the manually labeled set• Convert each <head, tail> pair into:

– <head, CATEGORY> (forward preference)– <CATEGORY, tail> (backward preference)

Павел Браславский ‐ Анализ запросов 37[Beitzel]

Page 38: Pavel Braslavskii - Query Analysis

Selectional Preferences: Step 2Selectional Preferences: Step 2

“Personal Finance”Category

“Personal Finance”CategoryCategory

Query Log Forward SP Rule:…banks

Category

Query Log Forward SP Rule:…banks

…Yahoo mail

banksbondsstocks

Head

PERSONAL

Tail…Yahoo mail

banksbondsstocks

Head

PERSONAL

Tail

interest ratesEbay motors…

ratessavingschecking

interestPERSONALFINANCE

interest ratesEbay motors…

ratessavingschecking

interestPERSONALFINANCE

……

Павел Браславский ‐ Анализ запросов 38[Beitzel]

Page 39: Pavel Braslavskii - Query Analysis

Selectional Preferences: Step 3Selectional Preferences: Step 3

• Score each preference using Resnik’s Selectional Preference Strength formula:

S (x ) = D ( P (U |x ) | | P (U ) )

P (u |x )P (u |x ) lo g⎛ ⎞⎜ ⎟∑ 2

u

( | ) = P (u |x ) lo gP (u )⎜ ⎟

⎝ ⎠∑

Where u represents a category, as found in Step 2.

S(x) is the sum of the weighted scores for every category i d i h i l i l iassociated with a given lexical unit

Павел Браславский ‐ Анализ запросов 39[Beitzel]

Page 40: Pavel Braslavskii - Query Analysis

Selectional Preferences: Step 4Selectional Preferences: Step 4

• Use the mined preferences and weighted scores from Steps 3 and 4 to assign classifications to unseen queries

Incoming Query

Matching SP Rule:Head TailIncoming Query

Matching SP Rule:Head Tail

interest only loan

Incoming Query

interestPERSONALFINANCE

interest only loan

Incoming Query

interestPERSONALFINANCE

“interest only loan” is classified as a “interest only loan” is classified as a te est o y oa s c ss ed sPERSONAL FINANCE query.

te est o y oa s c ss ed sPERSONAL FINANCE query.

Павел Браславский ‐ Анализ запросов 40[Beitzel]

Page 41: Pavel Braslavskii - Query Analysis

Selectional Preference Rule ExamplesSelectional Preference Rule Examples

Forward Rules– harlem club X

Backward Rules– X gets hot wont startharlem club X

• ENT‐>0.722 

• PLACES‐>0.378 

• TRAVEL >1 531

• AUTOS‐>2.049 • PLACES‐>0.594

– X getaway bargain• TRAVEL‐>1.531

– harley all stainless X• AUTOS‐>3.448

g y g• PLACES‐>0.877• SHOPPING‐>0.047• TRAVEL‐>0.862 

• SHOPPING‐>0.021 

– harley chicks with X• PORN‐>5.681

– X getaway bargain hotel and airfare

• PLACES‐>0.594PORN 5.681 • TRAVEL‐>2.057 

Павел Браславский ‐ Анализ запросов 41[Beitzel]

Page 42: Pavel Braslavskii - Query Analysis

На основе коллекции текстовНа основе коллекции текстовзапросзапрос

поиск

дом спорт музыка кинодом спорт музыка кино

10

15

0

5

Павел Браславский ‐ Анализ запросов 42

0

Page 43: Pavel Braslavskii - Query Analysis

KDD Cup 2005KDD Cup 2005

• Классификация запросов

• 800,000 запросов, 67 категорий

б• есть примеры, нет обучающего множества

• нет подробного описания категорий

• ответ системы: до 5 категорий• ответ системы: до 5 категорий 

• оценка: 800 запросов оцениваются тремя асессорами 

• метрика: F1метрика: F1

Павел Браславский ‐ Анализ запросов 43

Page 44: Pavel Braslavskii - Query Analysis

Nature of ProblemNature of Problem

queries …? 67 kdd-categories

synonym-based Page Categories

Phase I Phase II

classifierquery … 67 kdd-categoriesSearch engines

Page Contentstatistical

Павел Браславский ‐ Анализ запросов 44

classifiers

[Shen]

Page 45: Pavel Braslavskii - Query Analysis

Phase I: From queries to pages and categories 

• Input: – A query: Qi,

• We collected – 40 million entries

50GBA query: Qi, • Output: 

– <Page listi, Category listi > 

– 50GB• Search engines

– Lumur (CMU open source)• Approach: 

– through Search Engines (SE)

( p )– Google – ODP

L k t– Looksmart

Павел Браславский ‐ Анализ запросов 45[Shen]

Page 46: Pavel Braslavskii - Query Analysis

Phase II.a Synonym‐based Classifier: using directories

– 67 KDD‐categories in KDDCUP

– 172,565 in ODP/Google,

• Advantage– Fast,– Precise172,565 in ODP/Google, 

272,405 in Looksmart

• For each of the KDDCUP category

• Disadvantage– Many of the 172K and 272K 

categories from ODP/Google d L k t d t t

g y– Apply Wordnet to find the 

corresponding synonyms in the categories of ODP (Google) and Looksmart respectively

and Looksmart do not map to KDDCUP categories

– This may result in low recallLooksmart, respectively

• This produces one mapping function f for each directory– Also returns a rank by matchingAlso returns a rank by matching 

frequency

Павел Браславский ‐ Анализ запросов 46[Shen]

Page 47: Pavel Braslavskii - Query Analysis

Phase II b: Statistical ClassifiersPhase II.b: Statistical Classifiers• Statistical Classifiers• Statistical Classifiers

– Support Vector Machine (SVM): mapping pages to KDDCUP categories• Training Data

– 15 million pages with categories from ODP Directory– 15 million pages with categories from ODP Directory– Apply the mapping f from Phase II.a, to build training data.  

f15 Million Pairs 15 Million Pairs

• Application of the classifier

f15 Million Pairs (page, odp-categories)

15 Million Pairs (page, kdd-categories)

– Construct a virtual document for each query by combining the snippets from the returned pages given in Phase I.

– Classifier returns category and rank

Павел Браславский ‐ Анализ запросов 47[Shen]

Page 48: Pavel Braslavskii - Query Analysis

Component Classifier IntegrationComponent Classifier Integration

W f ll bl l i h• We follow an ensemble learning approach– Each classifier returns the category and rank– The two kinds of classifiers have the similar performance.p– We integrate the different classifiers together by a weighted 

sum of the ranks• Weights can be determined by validation data set:• Weights can be determined by validation data set:

– Based on the performance on the 111 sample data;– Assign different weight values for a classifier on different categories– The higher the precision the higher the weight valueThe higher the precision, the higher the weight value

• We have also tried to use equally weighted component classifiers

Павел Браславский ‐ Анализ запросов 48[Shen]

Page 49: Pavel Braslavskii - Query Analysis

Final Result GenerationFinal Result Generation

• Two Solutions: One for each evaluation criteria – S1: Using the validation data set is expected to achieve better precision 

measuremeasure • Since each component classifier is highly weighted on the classes 

where it achieves high precision.

S2 E ll i ht d bi ti i t d t hi hi h F1– S2: Equally weighted combination is expected to achieve higher F1 performance 

• Since the recall is relatively high

– Evaluation Results (http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html)Submission ID Precision F1

S1 37 0.423741 0.426123

• The Results are generated automatically.S2 22 0.414067 0.444395

Павел Браславский ‐ Анализ запросов 49[Shen]

Page 50: Pavel Braslavskii - Query Analysis

Putting them togetherPutting them together

Phase I Phase II Ensemble

Павел Браславский ‐ Анализ запросов 50

[Shen]

Page 51: Pavel Braslavskii - Query Analysis

Классификация на основе кликовКлассификация на основе кликов

1. Расширение обучающего множества2. Классификация на основе лексических признаков3. Комбинация методов

Павел Браславский ‐ Анализ запросов 51

Li et al. SIGIR2008

ц д

Page 52: Pavel Braslavskii - Query Analysis

Классификация запросовКлассификация запросов

x за рос y к асс (0/1)x – запрос, y – класс (0/1)Признаки φ(x, y) - n‐граммы[britney spears][britney spears] britney, spears, <s> britney britney spears spears </s><s> britney, britney spears, spears </s>, <s> britney spears, britney spears </s>

Павел Браславский ‐ Анализ запросов 52

Page 53: Pavel Braslavskii - Query Analysis

Распространение метокРаспространение меток

• W – матрица mxn, wij – количество кликов на документ j по запросу iд у j р у

• F – матрица mx2, fiy – вероятность принадлежности запроса i классу yпринадлежности запроса i классу y

• F0 – первоначальная разметка

И• Итерации:

Павел Браславский ‐ Анализ запросов 53

Page 54: Pavel Braslavskii - Query Analysis

КомбинацияКомбинация

Павел Браславский ‐ Анализ запросов 54

Page 55: Pavel Braslavskii - Query Analysis

БЛИЗКИЕ ЗАПРОСЫ

Павел Браславский ‐ Анализ запросов 55

Page 56: Pavel Braslavskii - Query Analysis

михаил булгаков богдан ступка и аил булга ов

мастер и маргарита

мастер и маргарита фильм

богда с у а

михаил боярский 

д'артаньянмастер и маргарита фильм 

владимир бортко

д'артаньян

три мушкетера

тарас бульба фильм  александр дюма

56Павел Браславский ‐ Анализ запросов

Page 57: Pavel Braslavskii - Query Analysis

ПодробнееПодробнее1 Уточнение:1. Уточнение:

золотое кольцо  золотое кольцо с бриллиантомягуар  ягуар животноеу р у р

2. Расширение: золотое кольцо  ювелирные украшениязолотое кольцо  кольцо

3. Параллельный переход:  японская вишня  сакурамерседес аудикупить санки детский миркупить санки детский миркоралловый клуб  coral club

57Павел Браславский ‐ Анализ запросов

Page 58: Pavel Braslavskii - Query Analysis

Близкие но «про другое»Близкие, но «про другое»

• Опечатки: курсовая робота – курсовая работа

• Транслитерация: золото – zoloto

• Раскладка: lbvf ,bkfy – дима билан

• Реникса: otbeptka – отвертка• Реникса: otbeptka – отвертка

58Павел Браславский ‐ Анализ запросов

Page 59: Pavel Braslavskii - Query Analysis

Хороший запрос это непростоХороший запрос – это непросто

Назовите глагол из вопроса, помещенного б дна борту транспортного средства подопечных Фатиха Теримана первенстве континента?

IX Кубок Яндекса по поиску (2008)

http://kubok.yandex.ru

Павел Браславский ‐ Анализ запросов 59

Page 60: Pavel Braslavskii - Query Analysis

Работа мыслиРабота мысли

• Фатих Терим

• сборная турции на борту самолета 

• сборная турции "на борту" самолетасборная турции на борту  самолета 

• сборная турции надпись "на борту" самолета 

• сборная турции надпись "на борту" автобуса 

• сборная турции надпись на автобусе 

• футбол "сборная турции" надпись на автобусе 

ф б " б " б• чемпионат европы футбол "сборная турции" надпись на автобусе 

60Павел Браславский ‐ Анализ запросов

Page 61: Pavel Braslavskii - Query Analysis

ОтветОтвет

Вместит ли автобус всю страсть Турции?Вместит ли автобус всю страсть Турции?

61Павел Браславский ‐ Анализ запросов

Page 62: Pavel Braslavskii - Query Analysis

62Павел Браславский ‐ Анализ запросов

Page 63: Pavel Braslavskii - Query Analysis

63Павел Браславский ‐ Анализ запросов

Page 64: Pavel Braslavskii - Query Analysis

64Павел Браславский ‐ Анализ запросов

Page 65: Pavel Braslavskii - Query Analysis

65Павел Браславский ‐ Анализ запросов

Page 66: Pavel Braslavskii - Query Analysis

66Павел Браславский ‐ Анализ запросов

Page 67: Pavel Braslavskii - Query Analysis

67Павел Браславский ‐ Анализ запросов

Page 68: Pavel Braslavskii - Query Analysis

Источники данныхИсточники данных

• Лог запросов

• Текст ссылокТекст ссылок 

• Корпус текстовford  ford focus, ford fusion, ford mondeo

карта  карта памяти, карта города

машина  стиральная машина, швейная машина 

68Павел Браславский ‐ Анализ запросов

Page 69: Pavel Braslavskii - Query Analysis

Близость запросовБлизость запросов

q2 q3 q4q1

слова/буквы сессиислова/буквы сессии

клики

69Павел Браславский ‐ Анализ запросов

Page 70: Pavel Braslavskii - Query Analysis

МетодМетод

0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки)

запрос=<timeStamp, userId, queryText, ckicks>

1. выделение сессий (по времени)

2. выделение пар (в.ч. транзитивно)

Павел Браславский ‐ Анализ запросов 70

Page 71: Pavel Braslavskii - Query Analysis

Метод 2Метод – 2 

3 (3. нормализация запросов (стоп‐слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования)

4 борьба со флешмобами и «событийными» ассоциациями4. борьба со флешмобами и «событийными» ассоциациями 

5. матрица частоты переходов «запрос‐запрос» (пороги для пользователя ограничение на абсолютную частоту)пользователя, ограничение на абсолютную частоту)

6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1)

7. ранжирование, отсечение по порогу

8. индекс: q  q1, q2, q3… (оригинальные запросы)д q q , q , q ( р р )

Павел Браславский ‐ Анализ запросов 71

Page 72: Pavel Braslavskii - Query Analysis

ОценкаОценка

• «оценка глазами»

• «классы объектов»«классы объектов»

• кластеры запросов Яндекс.Директа

• кликабельность

72Павел Браславский ‐ Анализ запросов

Page 73: Pavel Braslavskii - Query Analysis

РезультатРезультат

73Павел Браславский ‐ Анализ запросов

Page 74: Pavel Braslavskii - Query Analysis

ЛитератураЛитература• Broder A. A Taxonomy of Web Search. SIGIR 2002.• Broder A. et al. Robust classification of rare queries using web knowledge. 

SIGIR 2007.• Risvik K. M. et al. Query Segmentation for Web Search. WWW2003. • Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation. 

EMNLP‐CoNLL 2007.• Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010.• Beitzel, S.M. et al. Temporal analysis of a very large topically categorized 

web query log, JASIST, vol. 58, no. 2, 2007.• Beitzel, S.M., et al. Automatic classification of web queries using very large 

l b l d l ACM T I f S 25(2) 9 2007unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007.• Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in 

KDDCUP 2005, SIGKDD Explorations 7(2).Li X l L i Q I f R l i d Cli k G h SIGIR• Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR 2008.

Павел Браславский ‐ Анализ запросов 74

Page 75: Pavel Braslavskii - Query Analysis

СсылкиСсылки

• И AOL• История про лог AOL – см. http://en.wikipedia.org/wiki/AOL_search_data_scandal

• Поиск по логу AOL2006htt // l t lk /http://www.aolstalker.com/

• Query Log Analysis Workshop @ WWW2007, http://querylogs2007.webir.org/

• KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html• WSCD09: Workshop on Web Search Click Data 2009, 

http://research.microsoft.com/users/nickcr/wscd09/p // / / / /• Microsoft Web N‐gram Services, http://research.microsoft.com/en‐

us/collaboration/focus/cs/web‐ngram.aspx• Jiang D et al Web Search/Browse Log Mining: ChallengesJiang D. et al. Web Search/Browse Log Mining: Challenges, 

Methods, and Applications, http://research.microsoft.com/en‐us/people/djiang/web_search_and_browse_log_mining.pdf

Павел Браславский ‐ Анализ запросов 75

Page 76: Pavel Braslavskii - Query Analysis

ПРАКТИКА

Павел Браславский ‐ Анализ запросов 76

Page 77: Pavel Braslavskii - Query Analysis

ПрактикаПрактика

З• Задачи – Сегментация– Тематическая классификацияТематическая классификация– Близкие запросы

• Данные – AOL2006Дhttp://www.gregsadetsky.com/aol‐data/– seed ~2000 запросов, 

http://www kansas ru/querylog analysis/2000queries txthttp://www.kansas.ru/querylog_analysis/2000queries.txt– + описания DMOZ для категорий второго уровня

http://narod.ru/disk/371552001/dmoz_data.zip.html

• Можно использовать любые внешние ресурсы (не человеческие ;)

Павел Браславский ‐ Анализ запросов 77

Page 78: Pavel Braslavskii - Query Analysis

DMOZDMOZня

го уро

внии

 второ

категори

к

Павел Браславский ‐ Анализ запросов 78

Page 79: Pavel Braslavskii - Query Analysis

ПримерыПримеры

Сегментация• at the vet | norman rockwell | litho

• big weenie | by eminem

Тематическая классификация• big weenie by eminem ‐‐> Arts_Music /t Art_Television

До трех категорий, упорядоченных по уменьшению уверенности

Кластеризация• 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyotag p g / y

corolla /t toyota sienna hybrid

До 10 запросов из большого лога (сначала – самый близкий)

Павел Браславский ‐ Анализ запросов 79

Page 80: Pavel Braslavskii - Query Analysis

• Присылайте по почте с темой querylog_analysis_resultsq y g_ y _

• segmentation_имя_фамилия.txt

l ifi i ф• classification_имя_фамилия.txt

• clustering имя фамилия.txtg_ _ф

• имя_фамилия.pdf ‐ краткое описание методов

Павел Браславский ‐ Анализ запросов 80

Page 81: Pavel Braslavskii - Query Analysis

Павел БраславскийПавел Браславскийpb@yandex‐team.ru

81Павел Браславский ‐ Анализ запросов