Vertical Search Engine

Post on 26-Jan-2015

119 views 2 download

description

 

Transcript of Vertical Search Engine

1

Vertical Search Engine

areqi

wuqi79@gmail.com

2008-05-18

2

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Value Summary and Perspective

3

What’s Vertical Search Engine?

Vertical search, part of a larger subgrouping known as “specialized” search, is a relatively new tier in the Internet search industry consisting of search engines that focus on specific businesses……

http://en.wikipedia.org/wiki/Vertical_search

4

Structure Information Retrieval

NOT MUST for Vertical Search Engine.. Many types besides KooXoo type..

5

ExamplesBy Information Type Blog Search: http://blogsearch.google.com/ BT Search: http://btjunkie.org/ Video Search: http://www.blinkx.com/..By Topic Health: http://www.medstory.com Job: http://www.indeed.com People Search: http://www.zooinfo.com 火车票 : http://piao.kooxoo.com/..

6

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Value Summary and Perspective

7

Refernce

垂直搜索可以燎原 , 刘廷 , http://ir.hit.edu.cn/phpwebsite/index.php?module=documents&JAS_DocumentManager_op=viewDocument&JAS_Document_id=235

8

垂直搜索的特征 1. 面向特定领域 2. 深入 , 系统化 , 知识化 3. 准确 4. 及时 5. 结构化 6. 社区化 7. 全面

9

特征 1 :面向特定领域或对象 领域 :

旅游 , 招聘 , 医药 , 汽车,消费电子… 服务的对象 游客 , 求职人员,病人,购车 ..

10

领域的选择 你自己是否熟悉? -- 是否有该领域的行业背景? 本身就是该行业从业 人员 , 或者本身就是重度使用者。 垂直搜索是否能带来 add value ? -- 信息来源相对分散,任何单一网站都无法满足你的需求。 -- 用户对信息需求重度依赖 -- 该领域的信息量比较大 . 该领域商业上是否足够自由 ? -- 火车票 × 国学 × 需要专注,不要贪多 -- 只有专注才能产生价值 .. 不要嫌小 -- 装修 , 美容护肤 , 减肥 ..…

11

行业研究 你网站服务的最终用户 ? 他们的需求?能否

满足他们的 pains? 该行业的信息主要来源和类型 ? 该行业的市场规模? 发展趋势? 你网站服务行业的产业链 ? 在线市场状态 ?

12

我没有行业背景怎么办? 大家都没有行业背景。 从该行业的垂直网站学习 看公司年报,市场调查报告 ( 艾瑞 ,IDC, Gart

ner..) 结识行业内的朋友… .

13

搜索领域的扩展 ?

你的第一批用户是谁 ? 基于网站的用户群做业务扩展,为某个领域服

务为一个群体服务 . 不要在业务扩展方面过分依赖技术。 参考 55bbs: 打折美食 -> 婚嫁 -> 育儿 ..

14

特征 2: 深入,系统化,知识化 更多的提供知识 , 数据,而不是文字 基于行业特征,利用收集的信息的建立一个系

统的知识体系。 行业的背景知识和用户行为是提供深入结果的

重要依据。 自然语言处理,数据挖掘等是提供深入结果的

重要方法。 本体搜索 , 语义搜索 ..….

15

特征 3: 准确 由于限定了领域,因此搜索结果有更好的相关

性,也大大降低了实现的难度。 比如输入“ Polo” ,在汽车领域就是 Polo 汽

车,而不会返回 Polo 衬衫或者 Polo 皮带等等。 由于有领域知识的支持,用户的需求又比较集中,因此有理由给出更准确的检索结果。

16

特征 4: 及时通用搜索缺乏时效性 垂直搜索中存在“时间维” 不能总把所谓最相关内容的排在最前面,因为

有可能已经过时了 比如 kooxoo 火车票 垂直搜索的搜索范围小,也为及时更新创造了条件

17

特征 5:结构化非结构化信息的结构化 -- 利用信息抽取技术把非结构化信息自动转换

为结构化信息,并与原有的结构化信息整合检索

好处 -- 大幅度地减少用户获取信息的速度 -- 在数据库中可以方面地进行深层的归并、统计、挖掘等

18

特征 6:社区化 网站网站用户具有共同的特征。比如都是年轻女性,都是父母 ..

可以基于此建立圈子… .诸如 : ask.com 主推女性搜索 ..

19

特征 7 :全面 信息的来源要全面 :普通网页 ,视频 ,图片 , 行

业数据 , 学术论文… 不过过度依赖人工智能等技术渠道 .. 该领域前

人已经总结了大量的信息。 信息的存在形式 : 倒排索引,关系数据库, X

ML..尽可能多的覆盖该领域的垂直网站 ..尽可能把这个领域的信息尽可能都收集全。

但是不是越多越好… .

20

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Value Summary and Perspective

21

Point1: 仅仅依靠通用搜索就够了 现有通用搜索的不足 ---太多的搜索结果。其实你只要给我几个就

好了。 ---”which apple do you mean ?”

--- 知识碎片 --- 主动推荐的能力比较弱

22

Point2: Baidu, Google迟早也会做的 ..

“ 深”和“广”永远是一对矛盾,通用搜索要在所有领域全都深入,做到精准是不可能的。

垂直行业的价值最重要的是在商业上和整个产业链进行整合。 Google, Baidu 在可预见的将来应该还是以媒体广告为主 ..很难想象 Google 某天会成立个专门的旅游事业部。

OK,即使有了旅游事业部,那还会有美容事业部 , 装修事业部吗… ?

23

Point3 :仅仅依靠垂直网站够了吗 ? 不排除某些行业,单独的一个网站内容已经够

用了,能满足用户需求了… but, 垂直搜索会比任何一个单独的网站都大数倍,甚至数十倍。还有博客,论坛等大量内容…

垂直网站也可以数据挖掘。但是 more data ,much better result..

niche market/Long tail避免某个特定论坛信息的不全和观点的偏颇

24

Point4: 记不住多个垂直搜索网站的域名 用户的所谓“懒” --- 是在追求整个信息搜索过程的成本最小化 用户登录一个网站有两种方式 -- 不常去的网站:搜索(垂直网站也需要 S

EO)

--经常光顾的网站:记住域名或者收藏夹

25

Niche Market/Long Tail

http://en.wikipedia.org/wiki/Niche_market

26

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Value Summary and Perspective

27

学术界很多系统可以借鉴 ..

MSRA :

http://libra.msra.cn/清华大学 KEG 实验室 : http://www.arnetminer.

org/

28

新的垂直搜索引擎 ..

定义你的实体类型及其属性具体的内容可以参考已有的垂直门户网站。

29

主题爬虫 Focused Crawling:

http://en.wikipedia.org/wiki/Focused_crawler 也可以采用原始的方法 :

a.预先限定网站列表,然后自动发现新的特定领域的网站

b. 相关主题的博客的抓取暂时没有好的办法。

30

信息抽取 Record (product) Metadata (title, author, key term, summary) Factoid (personal name, organization name) Relation (person, expert-expertise) Event (news event)

Web Information Extraction.pdf Hang Li, Microsoft Research Asia

31

结构化信息抽取 KooXoo 火车票,租房 ..

32

实体抽取

33

排序 在搜索结果的排序上,链接分析的意义减弱或

者完全没有意义。 更多的考虑基于语义分析等来进行排序。 考虑利用用户行为 digg, 收藏等来影响排序。

34

用户行为除了提供最基本的关键词搜索还需要提供过浏览来实现交互

全体用户的搜索请求是高度集中的 ..常用的关键词可能集中在几百到一千个。

35

36

不要太过技术 ..

人是有情感的,冷冰冰的数字有时候不如图文并茂的文章管用 ..

37

Samples

爱搜车 :

www.isoche.com MedStory Health Search Engine www.medst

ory.com Travel Search Engine

www.uptake.com

38

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Opportunities Summary and Perspective

39

商业模式 -广告广告是网站没有明确盈利模式时候的选择 .. 垂直搜索的广告可以做到更有针对性 .广告主

也更容易去衡量效果。广告模式的创新 : other than CPC

40

佣金 KooXoo 机票,订房 ..

41

调研报告与行业网站或者咨询公司合作,向大厂家提供

调研报告 垂直搜索引擎能够方便客观地掌握用户的兴趣、

需求变化趋势,分析出用户对厂家、产品的褒贬态度

42

but,这是不够的… ..

不足以支撑一个大的商业模式 .. 需要 big idea成功的垂直搜索,除了技术上的创新以外,更

需要商业模式的创新。

43

Agenda

What’s Vertical Search? Vertical Search Features Why Vertical Search Useful? Technical Challenges Business Value Summary and Perspective

44

Summary

垂直搜索有其存在的价值。 垂直搜索能将技术问题简化。 关键不在于搜索,而在于你解决了什么问题。

需要有 big idea 。 需要重视行业的选择和对行业的理解。 不要炒作概念 技术上需要从学术界获得灵感,不要闭门造车。

45

Perspective

Semantic Web Programmable Web Cloud Computing Mobile Internet