第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章...

252
1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点 4 个方 7 个领域的战略性新兴产业之一。那么,何谓“新一代信息技术”?是下 一代互联网,是新一代移动通信,或是物联网、云计算,还是大数据?一时 间,众说纷纭。诚然,“新一代信息技术”之争源于其背后纷纷扰扰的信息技 (Information Technology)概念炒作。 应当看到,信息技术变革的本质是信息化(informatization),从技术效果 上看是将现实世界中的事物以数据的形式存储到“计算机系统”中。因而, 无论何种技术的粉墨登场或者黯然销退,留下的只有数据。 正如英国学者维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)所说 [1] 是时候将信息技术变革的重点聚焦在I上了。只有分析数据,才能获得信息。 随着不断“爆发(burst)”的数据海啸(data tsunami)数据爆炸(data explosion)一场数据革命蓄势待发,数字教父尼古拉斯·尼葛洛庞帝(Nicholas Negroponte) 所宣扬的真实世界 being digital[2] 正逐渐演变为虚拟疆界 being in Cyberspace “大数据热潮”所带来的,不仅是让学术界欣喜若狂的“人类探索世界 方法改变”——基于 e-Science 的科学研究第四范式(fourth paradigm) ,“取 之不尽、用之不竭” [1] 的数据创新同样激励着产业界,不难预测,在不久的 将来会形成一个战略性新兴产业——数据产业。这种新兴产业既蕴含费希尔 分类法(Fisher classification)3 类产业各自典型的特性,即第一产业(primary industry)的资源性、第二产业(secondary industry)的加工性、第三产业(tertiary industry)的服务性,又符合克拉克分类法(Clark classification)所描述的第四产 (quaternary sector of industry)“提升其他产业利润”的特征。 目前,如何进行产业转型进而成为数据产业企业,是摆在大多数信息产 业巨头面前的难题。股神沃伦•巴菲特(Warren Buffett)和金融大鳄乔治•索罗 Cyberspace, 即网络空间,直译为:赛博空间,是由加拿大作家威廉•吉布森(William Gibson)1984 年在其科幻小说《神经漫游者》(Neuromancer)中创造的。 第四范式的提出者是吉姆·格雷(Jim Gray)http://research.microsoft.com/en-us/um/people/gray.

Transcript of 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章...

Page 1: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

1

第一章 什么是数据产业

根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点 4 个方

向 7 个领域的战略性新兴产业之一。那么,何谓“新一代信息技术”?是下

一代互联网,是新一代移动通信,或是物联网、云计算,还是大数据?一时

间,众说纷纭。诚然,“新一代信息技术”之争源于其背后纷纷扰扰的信息技

术(Information Technology)概念炒作。

应当看到,信息技术变革的本质是信息化(informatization),从技术效果

上看是将现实世界中的事物以数据的形式存储到“计算机系统”中。因而,

无论何种技术的粉墨登场或者黯然销退,留下的只有数据。

正如英国学者维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)所说[1],

是时候将信息技术变革的重点聚焦在“I”上了。只有分析数据,才能获得信息。

随着不断“爆发(burst)”的数据海啸(data tsunami)和数据爆炸(data explosion),

一场数据革命蓄势待发,数字教父尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)

所宣扬的真实世界 “being digital”[ 2 ] 正逐渐演变为虚拟疆界 “being in

Cyberspace①”。

“大数据热潮”所带来的,不仅是让学术界欣喜若狂的“人类探索世界

方法改变”——基于 e-Science 的科学研究第四范式(fourth paradigm)②,“取

之不尽、用之不竭”[1]的数据创新同样激励着产业界,不难预测,在不久的

将来会形成一个战略性新兴产业——数据产业。这种新兴产业既蕴含费希尔

分类法(Fisher classification)中 3 类产业各自典型的特性,即第一产业(primary

industry)的资源性、第二产业(secondary industry)的加工性、第三产业(tertiary

industry)的服务性,又符合克拉克分类法(Clark classification)所描述的第四产

业(quaternary sector of industry)“提升其他产业利润”的特征。

目前,如何进行产业转型进而成为数据产业企业,是摆在大多数信息产

业巨头面前的难题。股神沃伦•巴菲特(Warren Buffett)和金融大鳄乔治•索罗

① Cyberspace, 即网络空间,直译为:赛博空间,是由加拿大作家威廉•吉布森(William

Gibson)1984 年在其科幻小说《神经漫游者》(Neuromancer)中创造的。

② 第四范式的提出者是吉姆·格雷(Jim Gray),http://research.microsoft.com/en-us/um/people/gray.

Page 2: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

2

斯(George Soros)都对这种转型①持乐见态度,例如,在昔日硬件霸主 IBM 转

入“大数据”领域后,巴菲特管理的伯克希尔•哈撒韦(Berkshire Hathaway)

公司和索罗斯不约而同增持 IBM 股票,分别至 5.5%和 11%,成为其两大股

东。

1.1 数据

试图破解人类自身奥秘的科学家通常都会对智力(intelligence)感兴趣,比

如差异心理学之父弗朗西斯·高尔顿(Francis Galton)就曾试图藉由测量人的

体能和感官灵敏程度来得出智力。1971 年,美国著名心理学家雷蒙德·卡特

尔(Raymond Cattell)创立晶体智力(crystallized intelligence)和流体智力(fluid

intelligence)理论,对一般智力进行区分[3]:晶体智力指的是“应用先前已获

得知识经验”的能力,与记忆力有关,由教育和经验决定;流体智力则是指

“在混乱状态中发现意义、解决新问题”的能力,与理解力有关,受人的生

物学因素影响。

20 世纪的信息技术变革的首要目的是让物理机器拥有“智力”,或者说

“智能”、“智慧”。1946 年,冯·诺伊曼博士(von Neumann)在普林斯顿高等

研究院亲自督造 ENIAC②时,就意识到了计算机和人脑机制的某些类似[4],

使用“存储器”这种保存数据的介质和“二进制”这种数据组织形式,来解

决机器的“记忆”和“理解”难题。

什么是数据?数据(data),被视为“科学的度量、知识的来源”,在物理

上存储以字节(byte)为计量单位,是关于事件之一组“离散且客观”的事实描

述③,是数据原子(data atomic)、数据项(data item)、数据对象(data object)、数

据集(data set)的统称[5],分为模拟数据和数字数据两种。描述数据的数据称为

元数据(mata data);处理数据的数据,如程序或软件,称为数据工具(data tool)。

数据集可看作是数据对象的集合,数据对象可看作是数据项的集合,数据项

① IBM’s centenary: The test of time. The Economist. June 11, 2011.

http://www.economist.com/node/18805483.

② ENIAC, 电子数字积分计算机的简称,英文全称为 Electronic Numerical Integrator And

Computer。

③ http://en.wikipedia.org/wiki/Data.

Page 3: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

3

则可看作是数据原子的集合。数据原子即计算机系统所使用的基本字符集;

数据项用以描述数据对象的特征(可命名,可定义数据类型)、没有独立含义;

数据对象的其他名字[6]是记录、点、向量、模式、事件、案例、样本、观测

或实体,可以用一组刻画对象基本特性的属性(或称变量、特性、字段、特征

或维)对其进行描述。

1.1.1 数据资源

有赖于摩尔定律(moore’s law)的推动,物理存储介质的价格从 1955 年的

1 MB 超过 6,000 美元降到 2010 年的不足 1 美分,从而使数据的海量存储成

为可能。

近年来,数据产生的速度越来越快。十多年前还被零零碎碎手书的数据,

已被各种新工具不断采集存储,学术界也不断定义新名词来表示新的存储单

位,这些包括:Kilobyte(KB), Megabyte(MB), Gigabyte(GB), Terabyte(TB),

Petabyte(PB), Exabyte(EB), Zettabyte(ZB), Yottabyte(YB), Nonabyte(NB),

Doggabyte(DB), Coydonbyte(CB)。

在《经济学人》(The Economist)的 2010 年 2 月一期上有篇名为“All too

much: Monstrous amounts of data”①的特别报告,很有想象力地列举了多个例

子来解释这些存储单位的意义,例如,一页纸的文字约为 2 KB;又如,15 TB

相当于全球馆藏量最大的美国国会图书馆藏书总量;再如,1 ZB 存储 5 MB

普通 MP3 格式的流行歌曲,按照每分钟 1 MB 的速度不断播放,播完需要 19

亿年。

继南加利福尼亚大学的马丁•希尔伯特(Martin Hilbert)和圣地亚哥加泰罗

尼亚开放大学的普里西利亚•洛佩兹(Priscila López)研究得出“2007 年全球数

据总量为 295 EB”[7]的结论后,数据存储领域巨头 EMC 赞助著名市场调研

机构 IDC 开展了一项目名为数字宇宙 (digital universe)的后续研究②。

2007~2011 年的报告分别题为:“The Diverse and Exploding Digital Universe”,

① http://www.economist.com/node/15557421.

② EMC & IDC: Explore the Digital Universe.

http://www.emc.com/leadership/programs/digital-universe.htm.

Page 4: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

4

“The Expanding Digital Universe: A Forecast of Worldwide Information”, “As the

Economy Contracts, the Digital Universe Expands”, “A Digital Universe Decade -

Are you Ready?”和“Extracting Value from Chaos”。2009 年的报告估量了当年

的数据规模后指出:尽管遭遇到大萧条,数据总量仍较 2008 年的 487 EB 增

长了 62%,接近 0.8 ZB,并预计 2010 年数据增加量为 1.2 ZB。2010 年的报

告预测:到 2020 年,数据总量将是 2009 年的 44 倍,达到 35 ZB,同时数据

对象数目的增长将超过数据总量。2011 年的报告指出:我们正处于一个关键

时期,需要新的数据工具来应对大数据问题,而这种新技术将改变所有人的

现有生活方式。

由此,不同庞大数据集,在多个逻辑上集中的数据组织(data orgrization)

和物理上集中的数据区域(data area)中达到“一定规模”,就构成了数据资源

(data resource)[5]。数据资源之所以能成为人类重要的现代战略资源之一,并

且其重要性“在本世纪可能超过石油、煤炭、矿产”,是由于当前人类一切活

动甚至“石油、煤炭、矿产等资源的勘探、开采、运输、加工、销售”均无

一能离开数据而开展工作。

目前,在科学领域数据资源已涵盖天文、地球物理、地球化学、地质、

海洋、大气、生物、医学等所有学科,并且各种大型国际合作实验还在继续

源源不断地提供各类数据,比如欧洲的粒子中心大型强子对撞机①、美洲的

Pan-STARRS②、澳洲的平方公里阵列射电望远镜③以及接受全球生物学实验

数据的 INSDC④;在国民经济领域,数据资源包括:金融经济数据、社会行

为数据、个人身份数据以及更大量的互联网数据(由社交计算、电子商务、网

络游戏、电子邮件和聊天工具等所产生的数据)等。

1.1.2 数据资产

“未消逝成本观”、“借方余额观”、“经济资源观”和“未来经济利益观”,

① http://public.web.cern.ch/public/en/LHC/LHC-en.html.

② Pan-STARRS, 泛星计划的简称,英文全称为 Panoramic Survey Telescope and Rapid

Response System。http://pan-starrs.ifa.hawaii.edu/public.

③ http://www.ska.gov.au.

④ INSDC, 国际核酸序列联合数据库的简称,英文全称为 International Nucleotide

Sequence Database Collaboration。http://www.insdc.org.

Page 5: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

5

是学术界对资产(assets)的一般观点,由此资产被美国财务会计准则委员会

(Financial Accounting Standards Board, U.S. FASB)定义为:一特定主体因为过

去的交易或事项而形成的,并为主体拥有或控制的、可能的未来经济利益,

其中有两方面要义:一是经济属性必须具备产生经济利益的能力,二是法律

属性必须可控制。

在凯恩斯学派制度经济学家约翰·加尔布雷斯(John Galbraith)1969 年首

次提出智力资本 (intellectual capital)概念后,经由安妮·布鲁金 (Annie

Brooking)[8]、托马斯·斯图尔特(Thomas Stewart)[9]、帕特里克·沙利文(Patrick

Sullivan)[10]等人的相继演绎,当前“智力资本 3 个重要组成①之一的智力资产

(intellectual assets)是一种特殊资产”的观点已成共识。

近年来,“智力资产”正在被逐级细化:信息经济学权威马克斯·博伊索

特(Max Boisot)提出知识资产(knowledge assets)[11],芝加哥学派自由经济学家

乔治·施蒂格勒(George Stigler)提出信息资产(information assets)[12],商务智

能领域巨头 SAS 旗下 DataFlux 公司总裁托尼·费希尔(Tony Fisher)提出数据

资 产 (data assets)[ 13 ] 。 这 种 细 化 方 式 与 DIKW 体 系

(Data-Information-Knowledge-Wisdom Pyramid)②(如图 1.1 所示)完全吻合。

数据

未知 理解

信息

知识

智慧

理解关系

理解模式

理解原理

图 1.1 DIKW 体系示意图

① 沙利文在《价值驱动的智力资本》(Value-Driven Intellectual Capital)一书中认为:智力

资本由智力资产、知识产权和人力资产 3 个部分组成。

② 根据维基百科,DIKW 体系模型最早可追溯到托马斯·艾略特(Thomas Eliot)所写的诗

The Rock;后来得到哈兰·克利夫兰(Harlan Cleveland)、米兰·瑟兰尼(Milan Zeleny)

及罗素·艾可夫(Russell Ackoff)等人扩展。

Page 6: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

6

在 ISO27001:2005 标准中,作为信息资产一个重要组成部分的数据资产,

有模拟数据资产和数字数据资产两种,模拟数据资产包括公文、合同、操作

单、项目文档、记录、传真、财务报告、发展计划、应急预案、本科室产生

的日常数据,以及各类外来流入文件等;数字数据资产则包括制度文件、管

理办法、体系文件、技术方案及报告、工作记录、表单、配置文件、拓扑图、

系统信息表、用户手册、数据库数据、操作和统计数据、开发过程中的源代

码等。

在此,我们将数据资产(Data Assets)重新定义为:一特定主体由过去交易

或信息化过程收集的,被主体拥有或控制的,具有一定规模,可增加主体未

来经济利益的数据总称。

报酬

风险

商业能力高

流程改造,人力资源管理,技术更新等

数据资产的技术采用

无序 被动 主动 治理

图 1.2 数据资产管理及其优势[13]

如图 1.2 所示,数据资产中数据的规模、活性,以及进行数据资产管理

能力,将决定企业的核心竞争力。数据资产管理,包括:数据的发现(discover)、

设计(design)、使能(enable)、维护(maintain)和存档(archive)[13],其优势在于能

进行风险规避(risk mitigation)、成本控制(cost control)或收益优化(revenue

optimization)等。

1.2 产业

一般认为,经济学鼻祖亚当·斯密(Adam Smith)的《国富论》(The Wealth

of Nations)中提及的分工理论(division of labor)是产业(industry)乃至产业集群

(industrial cluster)[14]等理论的演进基础。

Page 7: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

7

因而,产业这种“由科学技术进步和市场经济催生的社会分工发展必然

产物”被定义为:由利益相互联系的、具有不同分工的各个相关行业所组成

的业态总称①。

1.2.1 产业分类

在经济学上,通常将分类作为产业的研究起点和基础,大致有 3 种划分:

1.使用经济活动阶段为依据

比较经典的有:“三次产业分类”即“费希尔分类法”(1935)和“四次产

业分类”即“克拉克分类法”(1940)两种。简单来说,第一产业包括一切具

有资源或直接从地球开采资源的行业,第二产业包括所有进行加工的行业,

第三产业包括一切提供服务的行业,第四产业则是指可以明显提升其他产业

利润的产业。

2.使用产业经济学层次为依据

这种层次共有 3 种,即:使用相似产品区分“产业组织”,使用相似技术

或工艺区分“产业联系”,使用相似经济活动区分“产业结构”。

3.使用标准分类法为依据

标准分类法,国际上有北美产业分类体系 (North American Industry

Classification System, NAICS)、国际标准产业分类体系(International Standard

Industrial Classification of All Economic Activities, ISIC)等;在我国,进行产业

官方统计依据的是《国民经济行业分类和代码》,该标准于 1985 年首次发布,

分别于 1994 年、2002 年和 2011 年进行重大修订,目前版本为 GB4754-2012。

1.2.2 现代产业体系

以计算和模拟为范式的信息技术变革,不仅产生了一种新兴产业——信

息产业,在其技术边界日益模糊的今天,还使信息产业呈现硬件软化、软件

服务化、网络融合化等趋势,雾化了原有传统产业形态使之有了新的表现形

式和运转模式,进而推动了现代产业体系的产生,这个体系中的产业包括但

① http://baike.baidu.com/view/126527.htm.

Page 8: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

8

不限于:知识产业(knowledge industry)、高新技术产业(new high-technology

industry)、信息产业(information industry)、创意产业(creative industry)、文化

产业(culture industries)和智慧产业(intelligence industry)。

1.知识产业

1962 年,奥地利裔经济学家弗里兹·马克卢普(Fritz Machlup)在其《美

国的知识生产与分配》(The Production and Distribution of Knowledge in the

United States)一书中,正式提出“知识产业”这一概念,并给出了知识产业

的一般范畴和最早的分类模式。1997 年,经济合作与发展组织(Organization

for Economic Co-operation and Development, OECD)定义知识产业为“基于知

识生产、传播和直接商品化的产业”,包括教育、研究与开发(Research and

Development, R&D)和信息服务业,但不包括“知识密集度很高的制造业”。

2.高新技术产业

高新技术产业是在知识产业的基础上衍生发展起来的,产业划分以“研

究与开发强度”和“研发人员比重”为标准,主要涉及信息、生物、新材料、

航空航天、海洋等领域,特征在于:高群体、高智力、高投入、高综合、高

风险、高竞争、高渗透、高增长、高效益和高战略。

3.信息产业

1977 年,经济学家马克·波拉特(Marc Porat)在马克卢普知识产业研究的

基础上,建立了波拉特信息经济(information economy)测度体系[15]。1997 年,

北美产业分类体系首次将信息产业设为一个独立的产业部门(sector),根据

NAICS 的规定,信息产业由“生产和发布信息和文化产品的单位”、“提供方

法和手段进行传输和发布这些产品的单位”,以及“信息服务和数据处理单位”

构成。

4.创意产业

新增长理论经济学家保罗·罗默(Paul Romer)曾在 1986 年指出[16]:新创

意会衍生出无穷的新产品、新市场和财富创造的新机会。虽然澳大利亚在

1994 年就提出了“创意国度”(Creative Nation)的理念,但真正定义“创意产

业”并将其确立为一种新兴产业进行国家政策扶持的是英国。1997 年,英国

Page 9: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

9

创意产业特别工作组(Creative Industry Task Force)正式界定创意产业①是“一

种强调个人创造力、技能和才华的新兴产业”。很快,这一概念风靡全球,被

快速传播到伦敦、纽约、东京、巴黎、新加坡等,并于 21 世纪初期登陆上海、

北京、广州、香港等中国大城市。

5.文化产业

文化产业源于大众文化(mass culture)的普及。后工业时代,物质过剩生

产同样影响着文化,使得传统个性创作的垄断被打破,为批判这种“统治者

营造满足现状的社会工具”,1947 年,法兰克福学派的马克斯·霍克海默尔

(Max Horkheimer)和特提奥多•阿多诺(Theodor Adorno)在两人合著的《启蒙的

辩证法》(Dialectic of the Enlightenment)中,首次使用了文化工业(culture

industry)的说法;而同属法兰克福学派的瓦尔特·本雅明(Walter Benjamin)则

持相反态度,认为其是一种“艺术和技术的进步”。两者观点的分歧集中反映

了文化“从精英走向大众、由宗教走向世俗”过程中的“学院派”与“应用

派”之争,正是在这种争论中,加速了文化产业化进程。20 世纪 60 年代,

欧洲委员会 (Council of Europe) 和联合国教科文组织 (United Nations

Educational, Scientific and Cultural Organization, UNESCO)将“Industry”变成复

数形式的“Industries”,用以指代文化产业化中广泛意义上的经济类型。1993

年,联合国教科文组织修正了 1986 年文化统计框架,将文化产业定义为:“结

合创作、生产与商品化等方式,把本质上是无形的文化内容商品化”。由此,

现有的文化产业囊括:文化遗产、出版印刷业和著作文献、音乐、表演艺术、

视觉艺术、音乐媒体、视听媒体、社会文化活动、体育和游戏,以及环境和

自然等。

6.智慧产业

智慧产业源于 IBM 的商业概念“智慧地球”(Smart Planet, 2008)。类似

的商业炒作从 1996 年至今 IBM 先后推出过 3 个,前两个分别是“电子商务”

(e-business, 1996)和“随需应变”(e-business on Demand, 2002),这些概念在

内涵和外延上的逐渐扩大,让 IBM 从“让用户关注 IT 产品应用及其服务”

扩大到“逐渐融入用户所在领域的业务应用”,进一步拓展了市场的深度和广

① The Creative Industries Mapping Document. UK: 1998.

Page 10: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

10

度。作为物联网(internet of things)和云计算(cloud computing)的副产品,智慧

产业从 2008 年开始就在中国二、三线城市迅速繁荣起来,目前我国有上百个

城市或地区提出要建设“智慧城市”,而 IBM 已中标包括沈阳、南京、深圳

等在内多个“智慧城市”建设重大项目。

综合上述各种产业内涵的诠释,不难发现,文化产业的概念最为宽泛,

根据不同角度,美国将其从商业和法律意义表述成版权产业 (copyright

industries),日本将其从传输媒介方式表述成内容产业(content industries),在

产业主体、客体和载体上都与知识产业、创意产业很接近,唯一区别在于后

两者更倾向于强调产业客体的“知识产权”而非“商品化”。而智慧产业、知

识产业和信息产业,除了出现次序外,明显依从于 DIKW 体系:信息产业大

致可被分成两类行业,一是硬件制造业,如设备制造、光通信、移动通信、

集成电路、新型显示、应用电子等行业;二是信息服务业,如软件产业、网

络信息、金融信息、航运信息、贸易信息、数字出版、互动娱乐、电信服务

等行业;智慧产业虽然出现较晚、概念较新并打着创意产业“升级版”的招

牌,但本质还属商业炒作,即将信息产业加上“创意”的概念、将创意产业

的主体由“人”变成了“机器”。

1.3 数据产业

根据前文梳理,可将信息产业简单理解为信息化,从技术效果上看是将

现实世界中的事物以数据的形式存储到计算机等设备中,是一个生产“数据”

的过程,当前已累积并形成了多种领域或行业的数据资源。

挖掘这些数据资源、提取有用信息,将涌现“取之不尽,用之不竭”的

数据创新;赋予这些数据创新商业模式,就是产业化,会形成一种影响世界

经济格局的战略性新兴产业,我们称之为数据产业(data industry),数据产业

是信息产业的逆反、衍生与升级。

1.3.1 定义

根据对数据产业内涵和外延的不同理解,其概念有广义和狭义之分。

从狭义上来说,数据产业从技术效果上看主要是数据准备、数据挖掘和

Page 11: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

11

可视化,即:对数据资源进行合理开发、对数据资产进行有效管理,直接商

品化数据产品,涵盖数字出版与文化业、电子图书馆和情报业、多媒体业、

数字内容业、领域数据资源开发业、行业数据资源服务业等,当前已有的数

据创新有网络创作、数据营销、推送服务、商品比价和疾病预控等。

从广义上来说,数据产业包括涉及狭义意义上的上下游关联行业,依次

具体是:数据采集、数据存储、数据管理、数据处理、数据挖掘、数据分析、

数据展示,以及数据产品评价和交易。

1.3.2 产业结构

数据产业的结构形态由 3 个垂直层次组成,如图 1.3 所示,分别是:数

据资产、数据科技和数据产品,简单来说,技术结构以数据科技发展为核心,

资源结构以数据资产沉淀为基础,部门结构以数据产品流通为手段。理论上,

这 3 个垂直层次的工作可以分别由各自独立的单位来完成,在纵向形成数据

产业的全产业链。

数据资源

科学数据 政务数据 互联网数据 金融数据 交通数据 医疗数据 交易数据 行业数据

数据科技介入

数据资产检验

可视化

数据挖掘

数据准备

数据产业企业 数据产业链

数据采集

数据管理

数据存储

数据处理

数据挖掘

数据产品评价

数据产品交易数据产品权益

商业模式创新

垂直层次

数据产品

数据科技

数据资产

数据分析

数据展现

数据资产评估

图 1.3 数据产业的结构形态

1.数据产业的技术结构

数据产业是一种能提供“服务”的“技术”密集型产业,其所依赖的“技

术”——数据科技,所对应的是数据科学(Data Science)。

1966 年,天文学家出身的图灵奖获得者彼得•诺尔(Peter Naur)发明了一

Page 12: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

12

个新单词“datalogy”用来命名丹麦计算机学会(Danish Society of Datalogy),同

时提议用“数据科学”来代替“计算机科学”(Computer Science)。2001 年,

美国普渡大学的威廉•克利夫兰(William Cleveland)提议将数据科学这种“计

算在数据方面取得的进展”作为统计学的学科延伸,并分别于 2002 和 2003

年创立发行了两种统计学二级学科学术期刊“Data Science Journal”和“The

Journal of Data Science”。 威廉•克利夫兰虽不及彼得•诺尔有名,但克利夫

兰提议的影响力却使得许多人至今一听到“数据分析”就会联想到“统计模

型”。

数据产业的“技术”由 3 个步骤完成。

第一步:数据准备(data preparation)。类似于探矿过程中的地质勘探与分

析[5],数据准备决定了数据质量和后续挖掘方法的选择,包括:(1) 数据集的

有用性判断(如数据源是否异构、数据集能否访问等);(2) 数据集物理结构和

逻辑结构分析;(3) 元数据获取与整合。

第二步:数据挖掘(data mining)。作为一种有效的可伸缩工具,数据挖掘

利用了来自以下诸多领域的思想、方法学和算法[6]:(1) 传统数据库技术的有

效存储、索引和查询处理;(2) 人工智能、模式识别和机器学习的搜索算法、

建模技术和学习理论;(3) 统计学抽样、估计和假设检验;(4) 高性能或并行

计算、最优化、进化计算、信息论、信号处理和信息检索等。数据挖掘有“预

测”和“描述”两类任务,包含“大量”、“寻找”、“规律”3 方面含义[5],

通俗地说,就是要在“大量”的数据集中“寻找”到凭借传统数据分析工具

或是人的经验与直觉找不到的“规律”。

第三步:可视化(visualization)。其源于利用计算机图形学(Computer

Graphics)来创建视觉图像,以帮助理解那些错综而又庞大数据集所呈现的科

学概念或结果。随着产业界的商业、财务、行政管理或数字媒体等大型异构

数据集的增多,20 世纪 90 年代初,人们拓展出了一个被称作为信息可视化

(information visualization)[17][18]的研究领域,旨在为应用领域中抽象的数据分

析提供支持。目前,一个同时涵盖“科学可视化”与“信息可视化”的新生

术语“数据可视化”(data visualization) [19]正逐渐被接受,并作为一个不断演

变的概念,边界在不断地扩大,能利用三维图形建模、图像绘制或动画表达

Page 13: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

13

等方式实现数据解释。

2.数据产业的资源结构

与传统意义上的气候、土地或矿产资源类似,数据资源同样存在着赋存

分布不均、产用逆向配置和开发难度较大等问题,同时数据的多样性、高维

性、复杂性和未知性等特性及其组合状况能反映特定时期内区域资源在全部

资源中的地位和优越程度,将直接决定该区域市场绩效。

与之相对应,数据产业的资源结构也涉及资源分布、资源赋存、资源开

发和资源利用等方面,可分为:(1) 资源空间结构,即同构的各种数据资源

在同一区域的空间组合形式;(2) 资源类型结构,即同构的各种数据资源在

不同区域的空间组合形式;(3) 资源开发结构,即许可开发且具有开发利用

经济价值的待开发和已开发各种数据资源之间的时空组合关系;(4) 资源利

用结构,即已开发的数据资源深加工利用和多层次综合利用过程中所呈现出

来的各种空间组合关系;(5) 资源保护结构,即为特定需要和特定目的而规

定的各种受保护数据资源之间的数量组合关系或相互联系。

3.数据产业的部门结构

数据产业的部门结构即不同的行业划分,是以数据产品的生产、流通、

分配、消费过程中的共性和个性而区分的一组或多组产业之间的联系及其形

式。

以这 4 个环节为标准,数据产业的部门结构:(1) 以是否生产数据产品

为特征分为非生产部门和生产部门,数据采集、数据存储和数据管理的为非

生产部门;在生产部门中,以是否直接生产数据产品为特征,数据处理和数

据可视化的为直接生产部门,数据产品评估和数据产品交易的为间接生产部

门。(2) 以是否向社会提供数据产品为特征分为外射部门和内循部门,向社

会提供数据产品的为外射部门,不直接向社会、只向组织内部提供数据产品

的为内循部门。

1.3.3 产业行为

数据产业的产业行为集中表现在:数据科学家(data scientist or quant[20])、

数据隐私(data privacy)、产品定价(products pricing)和产业竞争(industrial

Page 14: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

14

competitiveness)这 4 个方面。

1.数据科学家

正如卫生经济学奠基者维克托·富克斯(Victor Fuchs)1974 年在其《谁应

该活着?》(Who Shall Live? Health, Economics, and Social Choice)一书里将“医

生”称为医疗保健产业的“队长”(captain)那样,“数据科学家”同样是数据

产业的“队长”。

2012 年 10 月,敏感事物权威《哈佛商业评论》(Harvard Business Review)

宣布[21],“数据科学家”是 21 世纪最性感的职业。这里所谓的“性感”,既

说明了其诱惑性,又说明了对它的无可适从。这篇文章是由前埃森哲战略变

革研究所(Accenture Institute for Strategic Change, AISC)主任托马斯·达文波

特(Thomas Davenport)和格雷洛克企业(Greylock Partners)合伙人帕蒂尔(DJ

Patil)联合撰写的,两人将数据科学家定义为:采用科学方法 (scientific

method)、运用数据挖掘工具寻找新的数据洞察的工程师。这种科学方法要“构

思假设、测试想法、精心设计实验、经由他人验证”,而运用的是“来自其工

程经验,或者更确切地说来自于其计算机科学与编程背景”;并且,最好的数

据科学家应是“新的数据挖掘工具的开发者”或者“产品与流程的创新者”。

根据麦肯锡全球研究院(McKinsey Global Institute)的报告①,数据科学家

在全球范围都非常紧缺,已成为 Facebook, Google, StumbleUpon 和 PayPal 等

大公司亟需雇用的对象,近八成的相关从业人员认为该职业年薪看涨,业务

副总裁级别年薪可高达 13.2 万美元,到 2018 年仅美国就有 400 万岗位需求、

短缺 150 万②。

2.数据隐私

俄裔美国哲学家艾茵·兰德(Ayn Rand)在《源头》(The Fountainhead)一

书中曾写道“文明是向拥有隐私权的社会不断进步”③。隐私同样与数据如

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innov

ation.

② 原文:By 2018, in the United States, we estimate that 4 million positions will require these

types of skills in a big data world. So there is a potential shortfall of 1.5 million data-savvy

managers and analysts.

③ 原文:Civilization is the progress toward a society of privacy.

Page 15: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

15

影随形,甚至美国、欧盟将每年的 1 月 28 日设为“全国数据隐私日”(National

Data Privacy Day),以鼓励开展有助于提升人们数据隐私意识的适当活动。

涉及隐私的数据包括每个人的信用卡记录、医疗及社会保险记录、行车

罚单等等。在互联网上有这么一个形象比喻:台式机、笔记本以及智能手机

和平板电脑等可以被视为一幢房子的“窗户”,越来越多的“贼”试图“破窗

而入”。这里隐藏着一个简单的逻辑:获取足够多的数据,分析后将发现的问

题反馈回社会,能获得商业价值。

对隐私数据感兴趣的,在学术界、产业界大有人在。例如,被《财富》

(Fortune)杂志评为“美国 25 家最酷公司之一”的 Against All Odds 制作公司

的著名摄影人里克·斯莫兰(Rick Smolan)近期开启了一项由 EMC, Cisco,

FedEx, VMware 等企业赞助的“大数据的人类面孔”(The Human Face of Big

Data)项目,目的是用数据解构人类,在全球 200 多万试用者同意的前提下采

集其在 2012 年一整年中每天 24 小时所有言论、行为等数据,以此在未来了

解人类社会关于家庭、信任、安全乃至两性等各种问题,同时还用来比较不

同地域、种族参与者的价值观等。另外,政府同样以“国家安全”为由对这

些隐私数据感兴趣,仅以 2011 年为例,Google 就收到了来自美国政府的

12,271 份索取其用户个人数据的要求,而移动电话终端服务商们也有 130 万

项类似的索取要求,其中包括“信号塔堆积数据”,这种数据通常覆盖了某座

特定手机信号发射塔在某一特定时间段内涉及的所有手机号码。

可以预料,数据隐私将会是未来较长一段时间内的焦点问题,或许应将

隐私出让选择权回归个体,而非让一小辍人用他人的数据来换取自己的利益。

3.产品定价

为了更为清晰的表述,这里举一款初级的数据产品——搜索引擎。值得

注意的是,搜索引擎并非是一个软件,同时也不是“免费的”。早在 1998 年,

Overture 公司(由 GoTo 更名而来)的创始人比尔·格罗斯(Bill Gross)就为搜索

引擎定价专门申请了专利。目前,搜索引擎有两类盈利模式:一是谷歌(Google)

用的点击付费(Pay Per Click),即不被点击则广告主不付费;二是百度(Baidu)

“创新”的竞价排序,即根据广告主的付费多少排列结果。2010 年 10 月,

Page 16: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

16

Goolge 调整了 CPC 定价①,对一部分角斗士型的广告主②冲击最佳位置时加

收 49%的溢价;而百度的左侧排名③早已这么做,其 80%的广告收入都来源

于此。

较搜索引擎更具数据科技含量的数据产品是广告精准投放,涵盖互动创

新、定向广告、社群营销、移动营销、效果营销、搜索优化以及广告效果监

测等,能将用户的行为习惯与兴趣偏好反向输送给业务层,在直接增加收入

的同时提升交互体验,以间接增强用户粘性、降低用户召回成本。例如,跟

踪、挖掘记录用户上网的 cookie 文件,对用户进行分类,并与广告主的产品

特征进行关联、匹配和排序;又如,监测用户鼠标的移动情况,使互动网幅

广告随着用户光标移动自动弹出,通过计算用户停留时间监测广告效果;再

如,利用用户的麦克风监听“背景声音”,以确保让广告只出现在广告主想要

呈现的人面前。

4.产品竞争

(1) 寡头约束:以电子书为例

这里只讨论电子书(eBook)这种“或有授权、能被检索的电子文档”④,

暂不讨论其“载体”——电子阅览器。

2010 年 8 月,美国康涅狄格州总检察长理查德·布鲁门瑟(Richard

Blumenthal)向亚马逊发出询问函,要求其说明与出版商的电子书定价交易,

以衡量是否存在阻碍其他竞争者行为。无疑在布鲁门瑟看来,亚马逊

(amazon.com)是有寡头垄断嫌疑的,其创始人兼总裁杰夫·贝佐斯(Jeff Bezos)

所采用的是“取货时尽量压低出版商价格、销售时尽量哄抬价格”的手段,

在很大程度上打压了一些较小的竞争者。目前,亚马逊能提供逾 9 万种电子

书下载,大多数的电子书售价为 9.99 美元;除此之外还可以订阅报纸杂志,

甚至实现了“实时零库存订购”,即以客户订单为准向供应商拿货。

① CPC: 每点击成本的简称,英文全称为 Cost Per Click or Cost Per Thousand

Click-Through.

② 角斗士型的广告主,指的是产品质量低但是肯出高竞价的广告主。

③ 在百度的搜索结果页中,分左测排名和右侧广告,左侧排名即竞价排名,右侧广告类

似于 Google 的 Adsense.

④ National Information Standards Organization. Information Services and Use: Metrics &

statistics for libraries and information providers – Data Dictionary. NISO Z39.7-201X.

http://www.niso.org/apps/group_public/download.php/9619/Z39-7-201x_for_ballot.pdf.

Page 17: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

17

(2) 寡头限制的削弱:加入“比价”搜索的电子书

2010 年 12 月,Google 高调加入了这个混乱的电子书市场,Google eBooks

号称:一是可以使用任何设备进行阅读,包括 Android、iOS 设备、电脑浏览

器、专用电子阅览器(如亚马逊的 Kindle、Barnes & Noble 的 Nook)等;二是

计划最终将在全球范围内提供超过 1.3 亿本书,先期上线超过 300 万本,其

中包括一些“孤本”的扫描版①;三是能通过 Google Checkout②购买,在买前

还可以预览多页,目前付费仅限美国市场。最有趣的是,Google 在 eBooks

里面加入了“比价”搜索来比较上千家零售商合作伙伴所提供价格,Forrester

公司的分析师詹姆斯·麦克奎维(James McQuivey)对此评价是:“Google 向这

些无法大规模投资技术的图书零售商敞开大门,将帮助其在激烈的市场竞争

中存活下来”。

1.3.4 市场绩效

测度数据产业的市场绩效 3 个重要标准,分别是:产品多样性(Product

Variety)、效率与生产率(efficiency and productivity)和竞争(competition)。

1.产品多样性

产品多样性不同于产品差异(product differentiation),虽然两者都是除了

纯粹竞争市场和寡头垄断市场外普遍存在的[22],但前者较后者与产品创新相

关性更大,如搜索引擎基于不同挖掘技术有文字搜索和图片搜索等多种。

产品多样性取决于“供应和消费”,这是一种来源于“不同的群体、集团

和社会的多样性和正在被使用和消费的多样性”③。特别地,数据产品多样

性的“供应”,还受到数据资源的规模体量和多样化的控制,例如,对不同的

传统行业数据资源进行挖掘,同样算法能得到不同的数据产品。

2.效率与生产率

生产率是“生产活动在一定时间内的效率”[23],即投入与产出的比率测

① 这些“孤本”的获得源于 Google 始于 2004 年较有争议的数字图书馆项目,发起时有

五个研究图书馆合作伙伴,分别是:哈佛大学图书馆、斯坦福大学图书馆、牛津大学图书

馆、密歇根大学图书馆以及纽约公共图书馆。

② Google Checkout 的服务有些类似易趣的 Paypal。

③ 部分摘自:2005 年 10 月 20 日联合国教科文组织第 33 届大会通过的《保护和促进文

化表现形式多样性公约》。

Page 18: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

18

度。当生产过程是单投入和单产出时,一般使用生产函数来表示生产率;当

聚合多投入或多产出时,需要使用全要素生产率(total factor productivity)指数

法来表示生产率的改变(提高或降低)。效率,通常有:技术效率(以及考虑时

间要素的技术进步)、成本效率、配置效率和规模效率等。

2001 年,经济学家戴尔•乔根森(Dale Jorgenson)研究了信息产业的效率

与生产率[24]后指出,1995-1999 年间美国经济整体技术进步的 50%以上应归

功于信息产业中硬件制造业的技术进步,我国和日本同样进步很快。而近期

研究却表明①,2002-2006 年间我国软件业全要素生产率仅为 3.1%同时技术效

率的增加速度仅为 0.9%。由此可见,消耗大量资金的硬件更替和技术进步缓

慢的软件创新已不能带动整体经济的发展;与此同时,用户也不再关心如何

根据自己的业务需求来购买服务器、软件和解决方案,而是开始考虑按需购

买数据产品。

3.竞争

区别与其他产业,数据产业竞争涵盖了政治、经济、军事、文化等多个

领域,从宏观到微观,从虚拟到实体,涉及航空、航天、海洋、电力、交通、

医疗、能源、教育等人们生活的方方面面。因而,数据产业的竞争须考虑两

部分:一部分是企业的,一部分是国家的。未来国与国之间的竞争将“部分

体现为一国拥有数据的规模、活性以及解释、运用数据的能力,即国家数字

主权,这将是继边防、海防、空防之后,另一个大国博弈的空间”②。

2005 年,美国空军将作战任务范围扩展为“空中、空间和网络空间”;

2006 年 11 月,美国成立空军网络司令部(U.S. Cyberspace Command);2008

年 3 月,美国发布《美国空军网络司令部战略构想》,从网络空间“数据存储、

修改和交换的域”的特性,对美国空军传统的“三大能力”提出了新要求,

包括:(1) 全球警戒:感知、传递,(2) 全球到达:连接、传输,(3) 全球作

战:威慑、打击;2009 年,美国总统奥巴马亲自主持网络空间研发项目,核

心问题是数据资源收集、整合加工和开发利用;2009 年 5 月 29 日,奥巴马

① 数据来源:贺力. 我国软件产业全要素生产率研究——基于 DEA 的实证分析. 浙江大

学博士论文, 2008.

② 国金证券股份有限公司:大数据系列研究报告。

Page 19: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

19

发表公开讲话、颁布总统国家安全令,宣布“网络空间安全是美国的最高国

策”,并将其间犯罪定义为:应符合两个条件,一是未经授权进入,二是获取

了数据;2010 年 9 月,美国军方通过 U 盘隐藏的“震网病毒”(stwxnet)破坏

伊朗核设施成功,打响网络战;2012 年 3 月 29 日,美国奥巴马政府发布了

“大数据研究和发展倡议”(Big Data Research and Development Initiative),该

倡议涉及美国国防部(Department of Defense, U.S. DOD)、国防部高级研究计

划局 (Advanced Research Projects Agency, U.S. DARPA)、国家科学基金

(National Science Foundation, U.S. NSF)、国家卫生研究院(National Institutes of

Health, U.S. NIH)、能源部((Department of Energy, U.S. DOE)、地质勘探局

(United States Geological Survey, USGS)等 6 个部门,这些部门承诺将总投资

超过 2 亿美元,以大力推动和改善与大数据相关的收集、组织和分析工具及

技术。另据《华盛顿邮报》(Washington Post)报道①,美国国防部已于 2013

年 1 月批准了网络司令部规模扩展计划,在未来几年内将扩展至现有的 5 倍

以上,人员从 900 人增至 4,900 人。

由此,美国完成了从网络空间到其间数据资源的保护、开发和利用的完

整作战线路图。除美国外,俄罗斯、英国、德国、印度、韩国、日本等国也

正开展类似工作。

应当看到,与以往战争不同,这种“第六次战争”②对民用部门依赖性

很强。美国在进行网络战演习时,参与合作的除了作战部门外,还包括多个

政府部门和相关私人公司。

归根结底,未来国与国之间的竞争就是数据产业的竞争。

① Ellen Nakashima. Pentagon to Boost Cybersecurity Force. January 28, 2013.

http://www.washingtonpost.com/world/national-security/pentagon-to-boost-cybersecurity-force

/2013/01/19/d87d9dc2-5fec-11e2-b05a-605528f6b712_story.html.

② 俄罗斯将网络战称为“第六代战争”。

Page 20: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

20

第二章 数据资源

如同我们用集合论[25]方法所认知的自然界,网络空间能被理解为:数据

是其间的唯一存在,相似数据“集结”到一定规模便形成了数据资源。这好

比是一个人的电话号码和一个城市所有居民的电话号码,前者是数据,后者

是数据资源。

数据资源的分类多种多样。例如,根据数据的组织形式,分为通用和专

用数据资源。信息化早期由通用的数据库系统来管理的数据(如 Oracle, SQL

Sever, DB2 等),属于通用数据资源;而地理信息、医学影像(如 X 光片、MR、

CT 等)和多媒体等的数据处理由于需要专门的设备或软件,则属于专用数据

资源。又如,根据数据存储位置,分为私人、企业、政府和公共数据资源,

等等。

这里列举 7 种常见的领域数据资源,用以说明数据的重要性。

2.1 科学数据

在科学研究中,数据已成为科学的主要研究对象,数据科学已然成形并

支撑起现阶段自然科学和社会科学两大科学体系的所有研究工作,甚至华盛

顿大学信息科学研究所的比尔·豪(Bill Howe)认为①:所有科学都在迅速变成

所谓的“数据科学”。

2.1.1 自然科学数据

图灵奖得主吉姆·格雷(Jim Gray)曾总结道[26],“我们正在见证每个学科

演变为两个分支”②。事实就是如此,比如计算生物学和生物信息学,前者

是模拟生物系统怎么样运转,一个细胞的代谢路径,或是一个蛋白生成的方

法;而后者则从许多不同的实验中收集和分析数据。

在自然科学领域,千百年来“提问-回答”的模式已被打破,“需求驱动”

① 摘自比尔•豪(Bill Howe)2013 年 5 月 15 日的 Twitter:All science is fast becoming what is

called data science.

② 原文:We are seeing the evolution of two branches of every discipline.

Page 21: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

21

正逐步替代“问题驱动”。这种趋势有以下特征:(1) 关注创造行动的过程:

根据外部驱动力而非获取到的最优知识来实施行动,比如是否对社会有用或

存在商业价值。(2) 关注确定结果的能力:追求有用而非完备,比如发展新

的能有效利用不完全知识的方法。(3) 关注学科的融合:可扩展性和稳健性,

比如使用其他学科知识来进行分析解释。

以地球与环境科学领域为例,从原来的仅仅耦合地质学、大气化学、生

态系统及地球系统的知识,现已演化为联结大气科学、天文学、生物学、人

类行为学用以解决环境应用问题,如解决水资源供应中的融雪径流问题[26]。

大约全世界有 10 亿人依赖雪或冰川融水,这些用途包括:饮用、灌溉、发电

和娱乐等,而传统的稳定气候下水资源管理经验在现有“人口增加、气候和

土地利用变化”下已不适用,学术界开始采用雪盖面积反射率的卫星数据、

雪和土壤湿度远程测量数据等来弥补“流域雪量及水平衡”和“径流中雨雪

量”的知识缺乏,以期获得更有效的径流时间和强度变化规律。

目前一种被称为数据实验(data experiment)[5]的科学研究方法正被逐渐认

可,其通过干预和控制数据集或(和)数据工具,来发现自然现象、数据工具

或数据集规律。最特别地,这种研究方法的实验对象、实验工具都是数据,

是一种用数据验证数据的方法。2012 年 7 月,欧洲核子研究组织(European

Organization for Nuclear Research, CERN)宣布的以 Atlas 和 CMS 两个独立的

实验成功寻找到疑似“上帝粒子”(God Particle)——希格斯玻色子(Higgs

Boson),使用的就是大型强子对撞机所收集的数据而进行的数据实验。

2.1.2 社会科学数据

正如证明了人际关系六度分隔(six degrees of separation)的小世界理论

(small world theory)提出者、哥伦比亚大学的邓肯·沃茨(Duncan Watts)所说

[27],“得益于海量数据及其科技,社会科学将脱下‘准科学’的外衣,全面

迈入科学的殿堂”[错误!未定义书签。]。他所列举的例子是,使用社交网络数据研究

人类集体行为。

在社会科学领域,同样在进行着改变:(1) 在数据获得途径上:连续的

社会行为数据正逐步替代传统的“问卷调查”,用以研究动态的人际交流、大

Page 22: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

22

型社会网络的演化等问题。例如,利用电子邮件研究一个群体趋向是否稳定,

利用互联网搜索和浏览记录进行舆情分析,利用网络社区的发帖研究成员的

互动模式及其对团体的影响等。(2) 在数据处理方法上:数据挖掘将替代第

三范式“先理论假设、再进行预测,并加以验证”的方法。比如替代前述的

效率与生产率测度方法,如最小二乘计量经济生产模型 (least-squares

econometric production model)、全要素生产率(total factor productivity)、数据

包络分析(data envelopment analysis)和随机前沿面分析法(stochastic frontier

analysis method)等,因为这些方法均对数据要求非常高,甚至是以方法定数

据的。(3) 在分析数据的量上:所有数据将代替随机采样的样本数据,随机

采样本身存在许多固有缺陷,如缺乏延展性、不适合考察子类别情况等,是

“在不可收集和分析全部数据的情况下的选择”[1]。

2012 年美国大选,奥巴马打破美国 70 年来“失业率高于 7.4%必不能连

任”的魔咒如愿以偿击败罗姆尼。这次被称为“被大数据改变的美国大选”,

由《时代周刊》(Time)的白宫记者迈克尔·舍雷尔(Michael Scherer)2012 年 11

月撰文揭秘①:奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分

析了大量数据,帮助竞选团队的高级助手成功“策划”了多场活动。这些活

动包括:通过复杂建模来找到目标选民,并利用这些目标选民的喜好来筹集

竞选资金、投放广告或采用动员渠道等,例如,利用影星莎拉·帕克(Sarah

Parker)和乔治·克鲁尼(George Clooney)对应东西海岸吸引 40-49 岁女性,为

其筹集到数百万美元的竞选资金;又如,在一些非传统节目,如 4 月播放的

电视剧《混乱之子》、《行尸走肉》和《23 号公寓的坏女孩》等中购买广告,

覆盖迈阿密戴德郡的 35 岁以下女性;再如,决定在社交新闻网站 Reddit 上

回答问题、在“摇摆州”进行电话动员等。

2.1.3 科学记录

在科学出版物②开放获取(Open Access)仍存争议的时候,格雷已将视线聚

http://swampland.time.com/2012/11/07/inside-the-secret-world-of-quants-and-data-crunchers-w

ho-helped-obama-win.

② 爱因斯坦(Albert Einstein, 1879-1955)将科学出版物总结为四类:期刊论文、书籍章节、

Page 23: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

23

焦于科学记录,将其作为研究的新对象,并认为这是“即将到来的学术交流

变革”[26]。

科学记录这种以进行可信赖学术交流为目的的科学证据数据,包括:支

持发现的基础数据或其他证据,出版前的同行评审意见,出版后的讨论或评

述、重复验证、结果复用和结果扩展,以及通过文献引文计量结果;还包括:

使用建立共同命名法和术语进行的相关工作关联,各种学术会议的演讲和记

录,独立编撰的科技期刊、技术报告和专利等知识产权,甚至涉及作者的声

誉、报告科学结果过程的透明度。

近年来,科学出版物和科学证据数据之间的关系日益紧密。2011 年 2 月,

PLoS 期刊①对一篇已发表的转基因木薯研究论文②进行了撤销,原因是“数

据缺失”——这个澳大利亚墨尔本大学研究团队无法提供这项声称能提高木

薯蛋白质含量的研究数据。

将科学证据数据作为科学研究的新对象,原因有二:一是其规模日益庞

大,不同学科领域有各自的专业会议、期刊、引文、索引、评论杂志与书目、

受控词表和分类表;二是其对应的数据对象日益复杂,不仅有异构的数据集、

数据库和数据档案,还会有半结构化文本、超链接的 Web 页面集和视频剪辑。

因而,挖掘科学证据数据,有助于大批量处理论文及其数据并直接产生

新的数据或结果,有助于有效地获取结果和假说,还有助于突破版权和技术

障碍,这本质上是一种数据整合(data integration)。

2.2 政务数据

自古以来,数据的“上传下达”是管理国家的一种手段。早在古埃及③和

古罗马帝国时期,政府就已有了采集和分析人口、经济等大规模数据的能力

和意愿;第二次世界大战结束以来,各国在经济重建过程中加重了数据的官

方统计力度,用来加强政府决策、企业投资和发展、学术研究、媒体传播、

书籍和授权译作。

① 《公共科学图书馆》的简称,英文全称是 the Public Library of Science,2011 年影响因

子为 4.411。

② http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0016256.

③ 在《旧约》和《新约》中均有记载古埃及曾进行过人口普查。

Page 24: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

24

公众知情和参与等,以此辅助国家决策和管理。

1993 年,美国联邦政府在国会削减预算与选民的压力下,为检视政府在

管理和提供服务方面所存在的弊端,由当时的副总统戈尔发起了一次名为“国

家绩效评估”(National Performance Review)的行动,向克林顿总统提交了两

份报告,在其中一份名为《运用信息技术改造政府》的报告中提出要以“电

子化政府”(electronic government)提升政府效率,由此电子政务①应运而生。

到 1996 年,美国政府因此得益而大幅缩减开支,关闭了近 2,000 个办公室,

裁剪了约 24 万人联邦雇员,直接减少了近 1180 亿美元支出。

在其他国家,英国在 1996 年颁布“绿皮书”对电子政务的发展进行系统

规划;加拿大在 1994 年由工业部长提出了一份以电子政务为主要内容的发展

信息高速公路战略框架;日本在 1993 年制定了《行政资讯推进共同事项行动

计划》提出电子政务 3 个层次的具体行动计划和方案;等等。

联合国经济及社会理事会(United Nations Economic and Social Council,

ECOSOC)将电子政务定义②为:政府通过信息通信技术手段的密集性和战略

性应用组织公共管理的方式,可被分为 4 类,包括:(1) G2G:政府间电子政

务;(2) G2B:政府-商业机构间电子政务;(3) G2C:政府-公民间电子政

务;(4) G2E:政府-雇员间电子政务。根据联合国经济及社会理事会的统计:

截止 2002 年,全球已有近 5 万个由政府部门建立的网站,是 1996 年的 1,000

倍;到 2005 年,已有 179 个国家启动了电子政务建设,占联合国成员总数的

94%。

当前我国的电子政务也取得了重大进展,表现在:一是以“金”字头为

代表的多项工程(即 1993 年提出的中国“十二金”工程,具体是金宏、金盾、

金桥、金关、金卡、金财、金税、金审、金保、金农、金水和金质等信息化

重大工程,其他还有金卫、金旅、金土、金信、金贸和金智等信息化工程)

取得了突破性进展;二是各级政府门户网站初具规模。

随着电子政务的发展,政务数据与日俱增。根据麦肯锡 2011 年的估算③,

① 电子政务,在名称上的其他类似称谓:电子化政府、数字政府、连线政府、网络政府、

在线(on-line)政府、虚拟政府等。

② http://baike.baidu.com/view/2056.htm.

Page 25: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

25

美国政府在 2009 年拥有的政务数据量为 848PB,仅次于制造业的 966PB,位

于所有 17 个行业的第二位。目前,政务数据资源存在“滥用或误用”和“未

用或不用”的两大悖论式问题,其表现在:一是发布数据匮乏或者数据质量

存在缺陷;二是尽管已有大规模数据,但仍执迷于“数字”的精确性。

2.2.1 开放获取

开放获取源于西方学术界试图打破商业出版商的垄断行为。2004 年 11

月,美国国会通过一项国家卫生研究院开放获取法案,遵照这一政策,每位

获得资助的研究人员应自愿将经过同行评议后最终定稿的研究成果论文电子

版提交给 NIH,并在公开发表 6 个月后,放入国家医学图书馆(National Library

of Medicine, U.S. NLM)由 PubMed Central 文献检索系统提供给公众免费检

索。2005 年 12 月,参议员乔·李伯曼(Joe Lieberman)等人提出 CURES 中心

法案(S.2104),要求强制执行开放获取,同时明确不服从的将来可能会被拒绝

提供资助。

开放获取同样直指向政府所拥有的公共领域数据。2007 年 12 月,O'Reilly

出版公司创始人兼首席执行官提姆·奥莱理(Tim O’Reilly)召集以普林斯顿大

学本科生乔舒亚·陶伯拉(Joshua Tauberer)为首的 30 名推动者赋予公共数据

开放“八大基本原则”:(1) 数据必须是完整的;(2) 数据必须是原始的;(3) 数

据必须是及时的;(4) 数据必须是可读取的;(5) 数据必须是机器可处理的;

(6) 数据获取必须是无歧视的;(7) 数据格式必须是通用非专有的;(8) 数据

必须是不需要许可证的。这些原则所体现的争议焦点主要集中数据的原始性、

安全性、真实性、时效性、质量、粒度和价值。

在此推动下,2009 年 5 月,美国奥巴马政府全面开放所拥有的公共领域

数据,并建立统一数据开放门户网站 Data.gov,截止到 2012 年 12 月,美国

政府各部门在 Data.Gov 上共开放粗糙数据集 4,743 项。Data.gov 的主要目标

是开放公共领域数据,鼓励创新,以得到更多的创新型应用,目前已有近 300

个由民间的程序员、公益组织等社会力量自主开发的这类应用。例如,有人

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innov

ation.

Page 26: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

26

根据美国交通部开放的全美航班起飞、到达、延误的数据,开发了一个免费

的航班延误时间分析系统,美国航班的延误率由此从 2008 年的 27%下降至

2010 年的 20.23%。其他国家,已有英国、加拿大、澳大利亚、韩国等 30 多

个国家也陆续效仿。2011 年 12 月,美国宣布与印度政府合作,将现有 Data.gov

改造成开源平台,并于 2012 年开放全部代码。源代码开放之后,全世界任何

人都可以免费引进、使用及修改美国的数据开放平台,而印度将率先移植。

在区层面,美国的旧金山市是当前政务数据开放获取最值得称颂的城市。

作为全美“创始人”(founder)最密集的地方,旧金山首先选择开放的是犯罪、

地理信息及非紧急市政服务热线 311,已开数据约有 200 组,现利用这些数

据开发出的产品超过 100 个,涉及公共安全、交通、娱乐和环保等多个领域。

例如,一家名为 Stamen Design 的公司根据“犯罪”数据制作了一个名为“犯

罪圈点”的网站,使用地图形式将来自警方的犯罪记录可视化,实时更新犯

罪事实发生时间和地点等,以帮助租房人寻觅房源或需要深夜归家者进行即

时查询参考。目前,旧金山市参事会主席邱信福正在推动的一项修法,为“政

府从中能收取 1%~3%的交易费”这一构想扫清障碍。

2.2.2 数据公布

除了收集数据,政府另一项行使行政职能的手段是定期公布数据,诸如

涉及国民经济、社会发展和民生问题等各方面的变动状况、普查结果和统计

公报,以及各种价格指数或行业管制标准,等等。目前这些政务数据大都经

由网络发布,面对的群体不仅是全体国民,还有其他国家的政府和一些国际

组织,若是相关数据匮乏或数据质量(data quality)存在缺陷,将会受到大范围

频繁质疑,直接关系到公共政策的制定,甚至影响国家竞争力与国际关系。

在 2009 年 5 月哥本哈根会议①上,尽管根据《联合国气候变化框架公约》

(United Nations Framework Convention on Climate Change)和《京都议定书》

(Kyoto Protocol)所确定的“共同但有区别的责任”原则,中国、印度以及其

他的发展中国家正受豁免,但是“中美两国的温室气体累积排放量占了全球

① 哥本哈根会议,全称为“哥本哈根《联合国气候变化框架公约》第十五次缔约方会议

和《京都议定书》第五次缔约方大会”。

Page 27: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

27

的三分之一”这一指控,仍然让我国政府难堪,只能表态:到 2020 年单位国

内生产总值二氧化碳排放比 2005 下降 40%~45%。如果我们这个最大的发展

中国家能提供数据证明“这些碳排放中生成的工业产品最终由哪些发达国家

享用的具体比例”,而非仅仅采取外交手段,是否能较为主动?

公布数据的质量缺陷,除了常见的数据造假、泄露政府机密和侵犯第三

人利益等外,还应考虑数据的时效性。由于这能直接反映政府效率,因而一

直困扰着各级政府部门。对于基层填报单位而言,限时意味着需要预估数据;

对于管理部门而言,限时意味着减少本级审核。如今我们可以对其他数据源

分析以辅助提高习惯性滞后的官方数据的时效性,以 2009 年甲型 H1N1 流感

为例①,Google 分析了 5,000 万条最频繁检索的词条和美国疾控中心在

2003~2008 年季节性流感传播时期数据,先于甲型 H1N1 流感爆发前好几个

月就在 Nature 上发表了流感预测论文[28];而美国疾控中心每周只能进行一次

数据汇总,通告新流感病例会有一至两周的延迟。

2.2.3 量化误区

量化研究(quantitative research)[29]是社会科学领域的一种基本范式②,其

主要使用的经验测量、统计分析和建立模型等 3 种方法,已成为当前各国政

府测定、收集、整理、归纳和分析数据的主要工具,用来实现经济意志,如

预算、财政税收、会计、审计和统计等公共财政管理。

一般认为,涉及此类政务都是在与“数字”打交道,例如,根据数字的

计量单位,形成实物指标、价值指标和劳动量指标等;又如,根据数字的所

属时间,形成时期指标(流量)、时点指标(存量);再如,根据数字从总量指标、

相对指标或平均指标等方面进行结构相对数、动态相对数和趋势分析。

然而,量化并非仅仅是数字化。许多人经常将数字和数据两词混用,很

大程度上是受到数学这种“人类纯粹的思维智力活动”[30]的影响。根据迈尔

-舍恩伯格的观点[1]:信息化分为两个步骤,首先是数据化,其次是数字化。

数据化,是指把一种现象转变为可量化形式的过程——量化成模拟数据;数

① http://www.nature.com/news/2008/081119/full/456287a.html.

② http://baike.baidu.com/view/446720.htm.

Page 28: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

28

字化,是指把模拟数据转换成用 0 和 1 这两个数字表示二进制码的过程——

数据的模拟格式与数字格式的转换。也就是说,数据化量化了信息,数字化

表示了数据。自人类结绳记事之始,就有了数据化,促成了数据的诞生;而

数字化则是从第一台计算机诞生才开始的。在 2011 年 4 月的《科学》(Science)

杂志上,希尔伯特和洛佩兹称[7]:数字时代“始”于 2002 年,因为这是第一

年以数字格式存储的数据多于模拟数据;而在 2000 年,模拟数据占 75%;

到 2007 年这种替换已近完成,数字数据有 94%。

由此看来,数据才是我们能依赖的根本,而极力推崇“数字”的精确性,

其结果只会是“舍本求末”——尽管已拥有大规模数据却只能采用其中极小

部分。同时,使用极小数据样本即便能保证每个数据都正确,为保证分析结

果能以尽可能少的偏差来证实尽可能大的发现,还需要采用一整套评估策略

进行检验,比如美国商务部分析局定期评估国民经济核算数据质量,英国建

立零售物价指数质量认证标准体系,澳大利亚统计局的建立国际收支和住户

调查数据质量评估体系,加拿大和瑞典等国建立数据调查质量和量化指标评

价体系,等等。但是,无论类似检验如何完善,正如波兰统计学家耶日·奈

曼(Jerzy Neyman)所指出的,这种“有目的地选择最具有代表性样本”的方法

先天存在漏洞。

2000 年,微软研究院的米歇尔·班科(Michele Banko)和埃里克·布里尔

(Eric Bill)在第一届自然语言处理国际会议上发表了一篇名为“Mitigating the

Paucity-of-Data Problem: Exploring the Effect of Training Corpus Size on

Classifier Performance”[31]的论文,说明了在大数据集上差的算法效率几乎等

同于小数据集上好的算法,如图 2.1 所示。同样,2006 年 10 月,兼任斯坦福

大学教师的沃尔玛旗下研发部门@WalmartLabs 成员阿南德·拉贾拉曼(Anand

Rajaraman)发起了一项名为 Netflix①的竞赛,也得出了相似的结论。获胜队只

有一个非常基本的算法,但赢了,原因是他们添加了原有 18,000 部原始电影

数据集以外的额外数据。

① http://allthingsd.com/20120907/more-data-beats-better-algorithms-or-does-it.

Page 29: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

29

图 2.1 在大数据集上差的算法效率几乎等同于小数据集上好的算法[31]

因而,涉及预算、财政、税务、会计、审计和统计等政府有关部门应开

始审视量化方式方法的转变,尽可能使用所有政务数据进行分析和处理,而

非一味追求“数字”的精确性。

2.3 互联网数据

互联网(Internet),或称因特网,源于 1962 年美国麻省理工学院约瑟夫·利

克利德(Joseph Licklider)“在任何地点迅速获得数据”的理念。经过近半个世

纪的发展,这种原本是军事与大型科学研究的全球网络,目前已借“三网融

合”、移动互联、物联网和云计算,将各种“不同类型、不同规模、位于不同

地理位置”的物理网络联接成一个整体。

2.3.1 Cyberspace: 数据唯一存在的疆界

1984 年,威廉·吉布森(Willian Gibson)藉由他的小说《神经漫游者》一

举囊获科幻文学界“三大荣耀”,即:当年度的星云奖①与第二年的雨果奖②和

菲利普·迪克奖③,进而成为“赛博朋克之父”。赛博朋克,原词是”

① 星云奖(Nebula Award),美国科幻与幻想作家协会(Science Fiction and Fantasy Writers of

America)所设立的奖项,由于奖杯为镶嵌在荧光树脂中的螺旋状星云,以此得名。

② 雨果奖(Hugo Award),世界科幻协会(World Science Fiction Society)所设立的奖项,正

式名称为科幻成就奖(The Science Fiction Achievement Award),为纪念“科幻之父”雨果·根

斯巴克(Hugo Gernsback)而命名,堪称科幻艺术界的诺贝尔奖。

③ 菲利普•迪克奖(Philip Dick Award),由费城科幻协会(Philadelphia Science Fiction

Society)资助,以科幻小说作家菲利普·迪克的名字命名。

Page 30: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

30

“cyberpunk”①,又称数字朋克、赛伯朋克、计算机叛客、网络叛客,其他著

名作家有:布鲁斯·斯特令(Bruce Sterling)、鲁迪·鲁克(Rudy Rucker)、帕特·卡

蒂甘(Pat Cadigan)、杰夫·努恩(Jeff Noon)和尼尔·斯蒂芬森(Neal Stephenson)

等。赛博朋克的世界是一个反乌托邦的、黑色电影的绝望世界,主题包括社

会荒颓、人工智能、偏执狂以及现实及某种虚拟现实间模糊的界限。这个流

派的小说在语言学上有很重大影响,让一些专有名词诸如网络空间

(cyberspace)、入侵对策电子学(intrusion countermeasures electronics)和虚拟现

实(virtual reality)等普及化。由于互联网当时正处于萌芽期,很多人仍执迷于

硬件架构,对此嗤之以鼻。

1999 年,两部电影《异次元骇客》和《黑客帝国》同时向我们展现了虚

拟世界中“数据”这一唯一事物的存在主义(existentialism),许多游戏巨头开

始思考如何利用这有如中国古代庄周梦蝶般的虚拟世界赚钱。

2003 年,这个虚拟世界“真实”诞生了,总部位于旧金山的游戏开发商

——林登实验室(Linden Lab)推出了一款真三维新网络游戏“第二人生”

(Second Life)②。与魔兽世界、完美世界、激战或奇迹世界等游戏相比,不管

是人物的操作性、动作真实性,还是色彩、人物和场景的细腻程度等,第二

人生都有所不及,但其营造了一个与现实社会平行的“新”世界。第二人生

只提供土地,并宣称“你的世界,你的想象”、“玩家在其中创造的物品产权

归玩家所有”,玩家可以根据自己意愿制造一切,如风景、交通工具、机器等;

也可以在游戏中做许多现实生活中的事情,如社交、购物、开车等;并且,

第二人生还拥有自己的经济体系,玩家可以出售商品或提供服务以换取一种

叫做“林登币”(Linden dollar)的货币,这种游戏币被允许通过官方兑换成美

元,总体上这种兑换是开放的,有时林登实验室会稍作调整以稳定汇率,一

小部分“居民”每月能获得几百至几千美元不等的收入。截止 2007 年,第二

人生每天在线人数 17,000~35,000 人,有人辞掉现实社会中的工作专注于在

游戏中创造财富,议员在其中进行演讲,美国有线新闻网(Cable News Network,

CNN)在其中设立分支,IBM 在其中建立营销中心,瑞典等国家在其中建立

① http://en.wikipedia.org/wiki/Cyberpunk.

② http://baike.baidu.com/view/645650.htm.

Page 31: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

31

了自己的大使馆,甚至世界上有包括哈佛大学在内超过 300 所大学以其为教

学用途,等等。

正如第二人生创始人菲利普·罗斯戴尔(Philip Rosedale)所说的,“我不是

在创造游戏,我是在建立一个国家”。我们要说的是,这个“国家”无远弗届,

在这个新疆界里,数据这唯一存在是最大的资源和资产。

2.3.2 “爬”来的财富

1994 年 10 月,万维网(World Wide Web)创始人蒂姆·伯纳斯-李(Tim

Berners-Lee) 爵士在麻省理工学院成立万维网联盟 (World Wide Web

Consortium),随后发布近百项与之相关标准。自此以后,作为互联网上最重

要应用之一,Web 成为世界上规模最大的公共数据源,汇集涉及新闻、广告、

金融、教育、政务和商务等各类数据。

几乎与此同时,麻省理工学院诞生了世界上第一只网络爬虫①,这种能

以人类无法达到速度进行不间断网页数据抓取的“小虫子”同样具有划时代

意义,现代意义上的搜索引擎因其而生。每个网络爬虫在抓取 Web 超链接、

网页内容或使用日志的时候,都会发送请求、表明身份(请求中使用一个名为

User-agent 的字段标识身份)。例如,Google 的网络爬虫标识为 GoogleBot,

百度的标识为 BaiDuSpider,雅虎(Yahoo)的标识为 Inktomi Slurp。网站管理

员能从访问日志知道,哪些搜索引擎的网络爬虫来过、什么时候来的,以及

抓取了多少数据等。

为分析这些被“爬”下来的巨大数据,一种区别于信息检索和抽取[32]的

Web 挖掘技术应运而生,通过对 Web 的内容(content)、结构(structure)和用法

(usage)等 3 类实施挖掘,以获得隐含的知识和模式,帮助进行信息搜索和决

策制定。

然而,这种被“爬”来的数据正在被一些人当成自己的财富。根据 Google

在 2008 年发布的官方报告,其采取这种手段已在互联网上获得超过 1 万亿个

Web 文档。全球复杂网络研究权威、“无尺度网络”创立者艾伯特-拉斯洛•

① 网络爬虫,英文名为 Web crawler,也被称作网络蜘蛛(Web spider),是由麻省理工学院

学生马休•格雷(Matthew Gray)在 1993 年 6 月设计的。

Page 32: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

32

巴拉巴西(Albert-László Barabási)在其新书《爆发:大数据时代预见未来的新

思维》(Bursts: The Hidden Pattern Behind Everything We Do, from Your E-mail to

Bloody Crusades)中说[33],Google 在过去的十多年中“以令人难以置信的速度

将人们在何时做过什么事情全部记录下来”,已俨然已成为全球最大的数据资

源中心,其著名的“不作恶”(don’t be evil)信条就是“花费数亿巨资网罗业

内顶级科学家,并和他们签署严格的保密协议以确保他们不会对外发表挖掘

这些数据的发现”。

2.3.3 论坛观点挖掘

网络论坛①,通常被简称为论坛,是一种提供以在线讨论为主的版面,

又因在技术上代替了早期电话为主的 BBS 服务②,也被称作讨论版,较早的

有詹姆士·艾金森(James Atkinson)在 2000 年创设的 PHPBB 等。

论坛涉及的讨论题材种类多样,譬如娱乐、新闻、教育、旅游、休闲等,

有的题材包罗万象,著名的有天涯、猫扑、西祠胡同、百度贴吧、新浪社区

等;有的则只专注某个题材,著名的有搜房业主论坛、东方财富网论坛股吧、

色影无忌和铁血社区等。艾瑞咨询在 2010 年曾做过关于讨论题材的调查③:

生活和互动娱乐类占比分别为 19.9%和 19.4%。

论坛数据通常是大量非结构化的文本,由于其间很多用户会与他人分享

音乐、视频、图片等,因而也涉及部分文档或多媒体数据。论坛数据一般由

站长负责,依讨论主题由不同版主管理,曾有人形容“必须要拥有比别人更

加敏锐的数据嗅觉”,例如,为鼓励会员发帖,设有会员积分系统、颁发勋章;

又如,对破坏论坛秩序的会员进行禁止发言、IP 封锁或取消会员资格等处罚。

除此之外,站长或版主有权移动文章到相关的版面或直接删帖。

当前,注册机、广告贴、垃圾信息是论坛所有者的大麻烦,很多论坛采

用关键词(Keyword)屏蔽等方法来阻止发帖、人工浏览的方式来删帖,甚至东

方财富以全体员工“没有休息日”为工作口号,来保证“股吧”这一被较多

① http://en.wikipedia.org/wiki/Internet_forum.

② BBS 服务,即为“电子布告栏”或“电子公告牌系统”,英文名为 Bulletin Board System。

③ 摘自:《2010 年中国网络社区研究报告》,http://news.iresearch.cn/Zt/128854.shtml.

Page 33: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

33

网民看好的论坛数据质量。

观点挖掘(opinion mining)是一种文本挖掘技术,用来有效评估包含观点

描述的文本,相关挖掘任务有以下几类[34],分别是:观点搜索(如搜索某一特

定对象或是有对象特征的观点)、意见分类(如判定语义倾向)、基于特征的观

点挖掘和摘要(即特征抽取)、比较性句子和比较关系挖掘,以及观点欺诈检

测(如比较内容相似度、检测评分和内容例外)等。使用观点挖掘,除了能部

分减轻论坛所有者的数据维护工作量,还能进行舆情分析。

2.3.4 隐匿身份的聊天数据

即时通讯工具,不仅将人际交往“从个人所熟悉的强联系人群,延伸到

了原本遥远、陌生的弱联系人群”①,还提供了一种隐匿和模糊身份的新方

式。较早的有 ICQ, MSN Messenger, Skype, Google Talk, QQ 等,目前随着移

动互联的发展,还有飞信、微信、易信、陌陌和米聊等。根据网络调查②,

截至 2011 年 6 月底,我国即时通信用户规模为 3.85 亿;而在 2012 中国互联

网大会上腾讯首席执行官马化腾宣布,诞生仅 598 天的微信用户已接近 2 亿。

聊天数据同样以大量非结构化的文本为主,根据其附加功能,例如,文

件传输功能,涉及文档或多媒体数据,又如,基于位置的服务(location based

service),涉及地理位置数据。

由于隐匿了身份,每个“虚拟”人在交流过程中所产生的观点、感情和

社会关系,甚至比现实社会的更真实。因而,使用聊天数据代替电话记录范

围覆盖全球的人际互动数据,易于研究人际互动在经济生产力、公众健康等

方面产生的影响,进而易于理解成员个体的品味爱好、情绪和健康等问题。

然而,随着当前数据量和种类的增多,虽然选择隐匿身份,从数据的交

叉检验进行关联分析,同样能挖出匿名化数据背后所隐藏的信息。以“QQ

圈子”为例,腾讯把聊天数据中的二度好友、群成员、朋友班级校友、微博

听众等各种关系整合到一起,很容易就把用户的社交圈完整勾勒出来了。

① http://www.sociology2010.cass.cn/upload/2013/07/d20130702103139887.pdf.

② http://www.askci.com/freereports/2011/07/2515461325571.shtml.

Page 34: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

34

2.3.5 邮件:第一种电子证据

1971 年,雷·汤姆林森(Ray Tomlinson)为改进文件的网络收发,发明了

电子邮件,作为互联网的一个最重要应用,其拥有“简易、投递迅速、收费

低廉、易于保存、全球无阻”等特点,轻而易举地替代了传统信件。电子邮

件地址由 3 部分组成①:一是用户信箱的邮件接收服务器域名;二是用户信

箱的帐号,对于同一个邮件接收服务器来说必须是唯一的;三是分隔符@。

2004 年,正当 Yahoo 和 Hotmail 等大多数邮件服务商仅提供 4M 空间、

网易开始对邮箱收费的时候,Google 选择“愚人节”这个与众不同的日子,

发布了一款能重新定义 Email 的免费邮件服务 Gmail。测试用户为约一千名

Google 员工及其亲友,而新用户需要已有用户使用“G 蛋”邀请。Gmail 带

给用户两大全新体验:一是无需删除邮件,即从最初超过 1 GB 的存储空间,

到目前的 10GB 的免费存储空间(还在继续以秒为单位不断自动增加中),使

用户不必再删除任何邮件;二是搜索但不排序,即无论何时发出或收到,都

能被搜索引擎准确地找到,所有邮件均有上下文,每封邮件与其所有的回复

邮件组合在一起,作为一个会话显示。作为一个著名的 AJAX②应用,Gmail

一边是令人称道的便捷,另一边则是备受争议的扫描用户邮件内容匹配广告

和邮件的不彻底删除,即:用户删除了邮件,但 Gmail 仅在后台服务器上做

一个标志,并非物理彻底删除。

邮件数据是由文本、图形、动画、音频、及视频等多种数据类型组成的,

在 2009 年 2 月的《科学》杂志上,由美国多个大学及研究机构的共 15 名研

究人员发表的一份研究报告[35]认为:邮件数据挖掘能帮助研究诸如某一群体

是趋向稳定还是趋向变化、成员之间什么样的交流模式有利于提高效率、接

收信息的多样化是否会提高成员的活力和表现等问题。

特别地,邮件数据是互联网中第一种“不可抵赖”的电子证据。1993 年,

联合国国际贸易法委员会(United Nations Commission on International Trade

① http://baike.baidu.com/view/1524.htm.

② AJAX,即浏览器端网页开发技术(Asynchronous JavaScript and XML),AJAX 并非缩写

词,而是由用户体验咨询公司 Adaptive Path 创始人之一的耶西•盖瑞(Jesse James Gaiiett)

所创造的名词。

Page 35: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

35

Law, UNCITRAL)在《电子数据交换及贸易数据通讯有关手段法律方面的统

一规则草案》中规定,利用邮件数据交换订立合同在功能上等同于“书面”、

“签字”和“原件”。在司法实践中,邮件数据作为电子证据主要面对定性、

审查与保全 3 方面问题,包括:(1) 查明发件人的真实身份,以邮件数据载

明的收、发件人名称和地址为准,需要用户选定的互联网服务商(Internet

Service Provider)提供有效的证明。(2) 查明电子邮件的内容(含正文及附件)

的真实性,需要诸如时间戳、随机 ID 号等原始数据。(3) 鉴于邮件数据的易

破坏性,首先应核对申请人与被申请人提供证据的差异;然后采用一次性只

读光盘(CD-ROM)取证以保证不被篡改;随后在当场播放后由申请人、被申

请人等查看并书面确认后封存光盘,封条由被申请人等当事人及法院执行人

员共同签名;最后在法庭上质证时播放证据。

2.3.6 博客的演进

1999 年,伊万·威廉姆斯(Evan Williams)创建博客托管服务 Blogger.com。

博客(Web Log or Blog)①,又被称作网络日志,有些专注于特定的课题上发布

评论或新闻,有些则被当作个人的网络日记。根据中国互联网络信息中心

(China Internet Network Information Center, CNNIC)转载②:著名博客搜索公司

Technorati 创始人兼首席执行官大卫·西弗里(David Sifry)在其“博客群体的

状况,2006 年 4 月”一文中说,自 2003 年开始,博客的数量就以每 6 个月

翻一番的速度增长,在过去的 3 年中,能查到的博客数量增长了 60 倍,达到

3,530 万个。

应当看到,博客演进过程是与数据有关的,如图 2.2 所示。

博客的第一次演进与数据类型有关,开始主要以文字为主,仅包含了一

部分图像、其他博客或网站的链接和其它与主题相关的媒体要素。随后,一

些博客开始专注于走视频、摄影等各种专业路线,或是偏向于 PK、换物等

某些主题题材,随之出现了一批有代表性的博客主,包括:播客(podcaster, 热

衷于新媒体播放的人)、维客(wikier, 热衷于百科信息发布或维护的人)、闪客

① http://baike.baidu.com/view/1509.htm. ② http://www.cnnic.cn/gjjl/gjyjydt/200604/t20060426_27675.htm.

Page 36: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

36

(flasher,热衷于制作 Flash 的人)、威客(willkeyer, 热衷于将知识或经验变成

收益的人)、晒客(sharer, 热衷于曝光私生活的人);甚至很有“中国特色”的

炫客(xuankr)、拼客(pinker)、换客(huankey)等。

第二次演进有了分叉,以文本数据为主的博客根据篇幅裁剪不同,2007

年初出现的最有名轻博客(Light Blogging):如 Tumblr,2006 年 3 月出现的最

早微博(MicroBlog):如 Twitter 和新浪微博等;以多媒体数据为主的博客,逐

渐演变为专注于数据存储的网盘,如 Evernote①等。

博客(Web Log, Blog)

播客

炫客

威客

维客

比客

闪客

晒客

拼客

换客

轻博客(Light Blogging)

网盘(Net Drive)

凸 凸 凸 凸 凸 凸

凸 凸 凸 “ 凸 凸 凸 凸 凸 凸 ”

如:Tumblr

如:Evernote

微博(MicroBlog)

凸 140凸如:Twitter, 新浪微博

……

凸 凸 凸 凸 凸

图 2.2 博客的演进方向

2.3.7 六度社交

1954 年,剑桥大学的约翰·巴恩斯(John Barnes)首创社交网络(social

network)[36]一词。1967 年,哈佛大学的斯坦利·米尔格拉姆(Stanley Milgram)

创立了六度分隔理论,假设世界上所有互不相识的人只需要很少中间人就能

建立起联系,尝试证明平均只要 6 个人。1998 年,邓肯·沃茨(Duncan Watts)

① Evernote 中国公司名为:印象笔记。

Page 37: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

37

和他的导师——著名数学家史蒂夫·斯特罗加茨(Steven Strogatz)在《自然》

杂志上发表了一篇名为“Collective Dynamics of ‘Small-world’ Networks”的论

文证明了六度分隔,并创立了一个全新的科学领域:小世界理论。2009 年,

从医学转而研究社会学的哈佛大学教授尼古拉斯·克里斯塔基斯(Nicholas

Christakis)发现[37]:相距三度之内是强连接(strong ties),强连接可以引发行为;

相距超过三度是弱连接(weak ties),弱连接只能传递信息。

当前,各种以信息化人际关系的社交网站(social networking sites)或移动

互联终端,每天吸引了数亿人发布自己的状态、心情或言论。例如,根据学

习经历凝聚人脉的 Facebook 和人人网、根据婚恋为目的凝聚人脉的百合网、

根据喜好凝聚人脉的 Fexion 网、根据工作履历凝聚人脉的大智慧等。这种具

有规模化群体性特征的海量数据,除了是数据科学家眼中的“金矿”①,还

吸引到了心理学、社会学、新闻传播学等多领域学者进行研究和探索,并且

针对这些数据的分析和处理已逐渐能摆脱匿名化②限制。

正当拥有 10 亿多用户③的 Facebook 仍仅靠广告赚钱的时候,商务社交网

站 LinkedIn 已开始着手从人脉数据中淘金,虽然该项收入仅占全部营收的两

成,但仍足以吸引华尔街投资人的眼球。LinkedIn 的商业模式是为个人用户

提供职位和人脉数据:(1) 强连接三度的免费,即用户可以免费查看自己三

度之内的人脉数据,建立联系,并进行商务交流,以达到招或聘的目标;(2)

弱连接三度之外的收费,即用户若需要查看自己三度之外的,就需要支付一

定的费用。

2.4 金融数据

尽管国内外学术界在金融学(finance)的学科定义、研究范畴和强弱相关

性交叉领域融合等问题上存在较大分歧,但有一点仍能达成共识,即:唯有

搜集到全面、准确的数据,才有可能进行有意义的金融研究。

正如全球债务大师、花旗银行总裁兼首席执行官威廉•罗兹(William

① http://www.programmer.com.cn/12461. ② 匿名化,指将所有能揭示个人情况的信息在数据集里使用特殊符号进行替代处理。 ③ http://tech.sina.com.cn/i/2012-10-24/04327732596.shtml.

Page 38: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

38

Rhodes)所说的,“银行的本质不是经营金钱,银行经营的就是信息”,金融这

个可能是信息化最为彻底的领域,数据至关重要。这不仅体现在金融业的经

营对象(货币)、各种金融契约和衍生工具、全部业务的处理和管理等方面,

还体现在极强的时效性,比如高频与超高频交易等。

2.4.1 孪生的新闻与金融数据

根据美国权威战略咨询机构 Burton-Taylor 的一项调查报告①,2011 年全

球最大的五家金融数据提供商分别是汤森路透 (Thomas Reuters)、彭博

(Bloomberg)、FactSet、IDC 和 Six Telekurs。Burton-Taylor 还在另一项报告里

估计了2011年汤森路透和彭博这部分的营收业绩②,汤森路透约为83亿美元、

彭博约 76 亿美元,两家合计占到整个金融数据市场份额的 63.5%。所以说,

英国的汤森路透和美国的彭博,既是世界前两大新闻通讯社,同时又是全球

为首的金融数据提供商。

据此,已有人注意到了新闻与金融数据的孪生关系,例如,“利比亚内战

炼油厂关闭”的新闻导致油服石油类股票下跌;又如,“东日本海大地震引发

海啸导致福岛核泄漏”的新闻导致美股收高、保险类股票下跌;再如,“意大

利欧债发烧同时议会选举不确定”的新闻导致欧元下跌、日元上涨;等等。

因而有学者试图使用关联分析(association analysis)去提取这种联系,并利用

这种存在的关联去预测各级金融市场趋势。

2.4.2 金融终端:“沉重的肉身”

金融数据似乎很难摆脱“终端”这一“沉重肉身”。源于《第一财经》的

消息:2012 年 4 月,彭博以“不正当竞争”为由起诉大智慧一款 2010 年研

发的金融数据终端“外形抄袭”③;2012 年 11 月,Wind 资讯又把同花顺告

上法庭④,且索赔额达到了 9920 万元。

诚然,在过去相当长的一个时期,金融终端有很丰厚的利润。例如,成

① http://burton-taylor.com/consulting/research-full.html.

② http://www.eeo.com.cn/2012/0211/220693.shtml.

③ http://www.qikan.com.cn/Article/dycj/dycj201215/dycj20121523.html.

④ http://www.yicai.com/news/2012/11/2273281.html.

Page 39: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

39

立于 1981 年的彭博,之所以能在短短二十多年时间超越了有 150 年历史的路

透,进而成为当时全球最大的金融数据服务提供商①,靠的就是销售彭博终

端 31 万台。同样,民营的 Wind 资讯借鉴了彭博模式,潜心做金融数据终端,

迅速成为亚洲排名第七(2002 年)的金融数据提供龙头企业。然而,2008 年新

华社高调推出的号称“‘集经济资讯、行情数据、服务信息、视频节目为一体’

的新华 08 终端”就没有那么幸运了,时至今日,连“新华 08”的员工都在

困惑“虽然已卖出了几千个,到底有没有人用不得而知”②。

需要知道的是,彭博和汤森路透都已着手大力拓展数据处理的研发工作,

“到底数据才是第一位的,是金融信息服务的核心价值所在”③,与其执着

于实有“买椟还珠”之弊金融终端,不如进行数据创新,以提供更好的金融

数据服务。

2.4.3 讨人嫌的数据中心

数据中心(data center)的不断增加源于全球数据生产量的指数级增长,以

美国为例,2010 年联邦政府共有 2,094 个数据中心,较 1998 年的 432 个增长

了 3.85 倍。雅虎首位首席数据官尤萨马·菲亚德(Usama Fayyad)甚至认为④,

物理存储发展速度每 9 个月就翻一倍,比摩尔总结的硬件发展速度还要快。

“9•11”恐怖袭击后,全球金融业(financial industry),特别是银行业,

除了建设了必要的数据中心用来存储旨在“建立开放式金融体系”的数据大

集中外,还额外建造了以提升抗毁性为要务的灾难备份数据中心。单就我国

而言,据《上海证券报》报道⑤,截止 2011 年底,我国 255 家重点银行机构

共已建设了 501 个数据中心或机房,涉及总投入达 698.7 亿元,同比增长

38.3%。另据《中国证券报》统计⑥,自 2009 年开始,以数据中心建设为主

的“云计算”在全国迅速展开,不完统计各类数据中心总量约 43 万个,可容

纳服务器约 500 万台,其中:经营性数据中心或机房 921 个,面积约 88 万平

① 在 2008 年,汤森和路透合并后又重夺回了第一。

② http://www.dooland.com/magazine/article.php?id=63030.

③ 此处援引路透社驻上海记者沈一鸣的话。

④ http://sceweb.uhcl.edu/boetticher/ML_DataMining/p28-fayyad.pdf.

⑤ http://kuaixun.stcn.com/2012/1213/10192826.shtml.

⑥ http://kuaixun.stcn.com/2012/1227/10204837.shtml.

Page 40: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

40

方米,机柜数约 17.7 万个,可容纳服务器约 200 万台。

然而,数据中心并不讨人喜欢,甚至有些讨人嫌。除了巨额建造成本,

数据中心还对气候环境、能源供给和施工规范等各方面都有很高的要求。选

择地域一般应考虑很多方面,诸如与总部的直线距离,是否气候寒冷干燥并

远离地震火山带等自然灾害带,所在地配套是否具有海底或地面通信光缆和

良好的供电系统(以 Google 为例,其所有数据中心需要耗损全世界 1.5%的电

能),等等。并且,数据中心所预设存储容量并非能符合未来数据生产的需求,

以位于成都的万国数据成都数据灾备中心为例,该中心 2008 年底开工,建设

占地约 83.5 亩,总建筑面积约 12 万平方米,总投资约 16 亿元,设计两期存

储容量为 6 PB;而仅在三年之后,磁盘阵列厂商 Cleversafe 于 2012 年 2 月宣

布①在北美打造的一套 10 EB 大容量存储系统(35 只集装箱式数据中心×16

个地点),其中的一只集装箱就可以存储 18 PB。

随着我国城镇化的快速发展,土地已经日渐成为稀缺资源。日益加剧的

土地供需矛盾,致使各地政府在转让国有土地使用权时,除了价格因素外还

会考虑用途,从后续年度的产值利税、节能环保等方面考虑,使得“建造数

据中心”这一土地使用用途越来越不被看好,对其唯恐避之不及。

2.5 医疗数据

得益于医卫信息系统的不断研发和生物基因技术的高速发展,可获取的

医疗数据量正在飞速增加,庞大的医疗数据资源已开始为人类医疗集体经验

的快速提升提供帮助。

2.5.1 健康档案数据

众所周知,美国是全世界医卫信息系统研发、应用的领跑者,这类信息

系统包括:20 世纪 60 年代的医院管理信息系统 (hospital management

information system, HMIS or MIS) 、 70 年代的临床信息系统 (clinical

information system, CIS)和 80 年代的影像存档与通信系统(picture archiving &

① http://www.dochannel.com/article/2012/0215/5874292.shtml.

Page 41: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

41

communication system, PACS),著名的有:犹他州盐湖城医院(Salt Lake City

Hospital)的 HELP 系统、麻省总医院 (Massachusetts General Hospital)的

COSTAR 系统,退伍军人管理部(Department of Veterans Affairs, U.S. DVA)的

DHCP 系统等。

1991 年,美国医学研究所(Institute of Medicine, U.S. IOM)开始研究电子

病历(computerized patient record or electronic medical record, CPR or EMR),同

年出版了《电子病历:一项基本医疗保健技术》(The Computer-Based Patient

Record: An Essential Technology for Health Care)一书;随后联同 Markle 基金

会及全美 13 家医疗卫生机构和信息技术组织,分别向美国国会提交了“建立

由政府主导、具有统一标准的电子病历网络系统”的建议,此项建议的目的

在于:确保就诊病人的信息及时传送,减少医疗失误。2003 年 7 月,美国卫

生与公众服务部(Department of Health and Human Service, U.S. HHS)宣布采

取两项新举措来推进全国电子病历系统:其一、购买医学系统术语

(systematized nomenclature of medicine, SNOMED)的许可证,使其在美全境使

用可不再付费,其二、委托医学研究所设计开发一个标准的电子病历模型,

并由 HL7(Health Level Seven)标准化组织评估后免费提供给各医疗机构共

享。2003 年底,小布什总统签署了《医疗处方药改善与现代化法令》(Medicare

Prescription Drug Improvement and Modernization Act, 简称 MMA 法令),明确

要求医疗保险与医疗救助服务中心(Centers for Medicare & Medicaid Service,

U.S. CMS)制定电子处方(e-prescribing)标准作为广泛应用电子病历的第一步。

2009 年,为缓解金融危机所导致的急剧经济衰退,美国在“经济复苏与再投

资法案(American Recovery and Reinvestment Act, 简称 ARRA 法案)”的 7,870

亿美元救市资金中,专门为电子病历预留了 360 亿美元。

目前,世界各地的医疗机构在规范电子病历的同时,已将信息化延伸拓

展到电子健康档案(electronic health records, EHR)领域,由此使用标准术语和

知识本体的电子健康档案已被累积成数据资源。当前,该领域数据分析一般

基于证据的医疗保健范式,文本挖掘较为常见,例如,2011 年 8 月,丹麦技

术大学的弗朗西斯科·洛克(Francisco Roque)等人[38]在《公共科学图书馆·计

算生物学》(PLoS Computational Biology)上发表了一篇论文,对丹麦最大的精

Page 42: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

42

神病医院汉斯医院(Hans Hospital)1998~2008 年间收集的 5,543 个病人数据进

行了文本挖掘,通过疾病医疗术语相似性对患者分类。现在这一领域存在的

问题是,医疗机构将病患本人被隔绝于数据隔离墙之外,根据普华永道健康

研究院(PwC Health Research Institute)2011 年发布的一份研究报告①,仅有

7.84%的病患能够获得或访问自己的个人健康记录(personal health records,

PHRs)。

2.5.2 中医药数据

中医废存之争由来已久,自俞樾原载《春在堂全书·俞楼杂纂》的《废

医论》始,迄今为止共有 5 次②:第一次在 1912 年,也就是近代史著名的“教

育系统漏列中医案”,梁启超和鲁迅都站在了质疑中医的阵容中,其中最有名

的是鲁迅先生那句“中医不过是有意无意的骗子”,此次以支持废中医梁启超

在 1926 年被西医误诊而错摘肾脏为终结;第二次在 1929 年,余云岫、褚民

谊等人以中医无法证实科学性而提出《规定旧医登记案原则》议案,欲废止

中医,此次以国民政府迫于“全国中医药联盟”200 多名代表请愿压力、撤

销一切禁锢中医法令为终结;随后的两次,分别在建国初期和“文革”期间,

最终以 1982 年修宪“发展现代医药和我国传统医药”终结;最后一次起于

2005 年,中南大学的张功耀在博客发表《告别中医中药》等系列文章并发起

“征集促使中医中药退出国家医疗体制签名公告”万人签名,此次以“中国

中医研究院”更名为“中国中医科学院”终结。

一般来说,支持废除中医的③较多关注论证疗效方法的科学性及其理论

的自恰性等技术层面,而反对的则关注批判民族虚无主义、主张弘扬民族遗

产等思想哲学层面;换而言之,支持废除一方多关注科学论据,而反对一方

则多将之视为一场政治争议,正所谓“鸡同鸭讲”。相信在不久的将来,数据

挖掘的介入,偏重于“效法自然”寻找平衡的中医和偏重于“对抗”寻找存

http://www.pwc.com/us/en/health-industries/publications/putting-patients-into-meaningful-use.j

html.

② http://news.ifeng.com/history/1/jishi/200904/0403_2663_1090169_1.shtml.

③ http://zh.wikipedia.org/wiki/废除中医运动.

Page 43: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

43

在共性的西医,即便是不能从“同行相轻”变为“互融互通”,也能在废存之

争上都以数据说话。例如:根据西方医学从健康档案数据进行的病情演变及

医疗路径挖掘研究已对复方有所认识,有资料说明①酒(葡萄酒)之所以能增加

药效的原因,在于其破坏了肝中的某些酶,使此类酶无法正常分解药效,从

而导致药效被超常吸收。

当前在中医药继承与创新工作中已累积的中医药数据有:中医药文献数

据、中医药专业技术标准与规范数据、中医药古籍数据、历代医家医案数据、

中医诊疗经验数据、中医药科研数据、中医药教育数据、中药数据、中医方

剂数据、中医临床数据等。整合与挖掘这些数据,能针对中医药数据多态性、

不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取,如复方

配伍规律和方证查询匹配研究、以古语言和纯文本为主文本挖掘研究等。

2.5.3 医疗保险数据

由于疾病的多样性、治疗手段的差异性和医疗服务的专业性,全球各国

的医疗保险均面临较为严重欺诈与滥用问题。在美国,2010 年 7 月,司法部

宣布破获史上最大一起医疗保险诈骗案,共涉及起诉包括医生、护士、诊所

业主和管理人员等在内的 94 名嫌犯、金额高达 2.51 亿美元;没有最大只有

更大,2012 年 5 月和 10 月,美国联邦当局又分别宣布破获涉及金额分别为

4.52 亿美元和 4.3 亿美元的两起医疗保险欺诈案;2013 年 2 月,联邦调查局

突袭了一家总部设在得克萨斯州新布劳恩费尔斯(New Braunfels)的滑板车制

造公司,该公司被指控为残疾人提供被医学上认为没有必要的滑轮车,并涉

嫌滥用医疗保险 7.23 亿美元、骗取医疗保险超过 1 亿美元。在法国②,为打

击医疗保险欺诈与滥用,于 2008 年设立了专门的“反欺诈执行委员会”,当

年查处的案件案值超过 210 万欧元;2009~2010 年度加大了打击力度,共查

处涉案金额达到 300 万欧元,其中半数以上为欺诈,目前该部门共有 9,679

人。在我国,据社会保险基金管理中心课题组 2005 年的统计③,仅天津市为

① http://blog.sina.com.cn/s/blog_4ce1fd21010009s0.html.

② http://www.cie.gov.cn/cie/zwzx/2288.htm.

③ http://www.csia.cn/hknr/200711/t20071127_167632.htm.

Page 44: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

44

例,2004 年度累计拒付医疗机构不合理住院医疗费 4.67 亿元,其中明显涉及

欺诈行为的金额有 211.79 万元。

以前,医疗保险欺诈识别主要是索赔分类①,即区分索赔是欺诈还是合

法。使用随机样本研究方法的,一般需要设定欺诈指示因子(fraud indicators)

以刻画某些欺诈特征的可测点,再选择识别模型、采用主成分分析法等解释

变量。1996 年,IBM 研究院的马里萨·比韦罗斯(Marisa Viveros)等人[39]率先

使用关联规则和神经分割两种挖掘技术应用于医疗保险行为模式以识别欺

诈,已被美国保健财务管理局(Health Care Financing Administration, U.S.

HCFA)用于医疗索赔检测[40]。

目前针对医疗保险数据的挖掘分析,通常有异常检测 (deviation

detection)、特异群组(peculiarity group)[41]和少类挖掘(rare category mining)[42]

等,以控制大处方、人情方、检查比例高和医保卡重复使用等问题。

2012 年 9 月,一家名为 Predilytics 的初创公司将机器学习方法运用到医

疗保险领域,获得了由 Flybridge Capital Partners, Highland Capital Partners 和

Google Ventures 提供的 600 万美元 A 轮融资②,其能针对医保索赔、医疗处

方、临床试验、合格证明、呼叫中心、电子病历或护理操作等数据,在无需

人工干预的前提下形成新算法或者进行调优,如宣称所提供的偏差检测算法

较传统基于规则的统计回归模型分析深度要高出 1~3 倍。

2.6 交通数据

“阡陌交通”是东晋·陶渊明《桃花源记》中所描述的人类“衣食住行”

基本需求中的出行要求:道路纵横有制、四通八达。

短短百年,汽车工业飞速发展,卡尔·本茨(Karl Benz)所制造的时速仅

为 18 公里三轮汽车已被从零加速到百公里只需 2.5 秒的顶级跑车所替代,全

球汽车保有量已从 1970 年的 2.5 亿辆跃升至 2010 年的 10.15 亿辆,预计到

2050 年将超过 25 亿辆。交通拥堵随之而来,尽管全世界政府都在持续改善

道路状况、规范交通法规,这仍是首屈一指的城市顽疾。

① http://www.scuphilosophy.org/research_display.asp?cat_id=97&art_id=9425.

② http://www.36kr.com/p/150964.html.

Page 45: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

45

我国同样受此顽疾困扰。1994 年私人购车正式写入国家产业政策、进入

汽车大众化时代以来,中国汽车年总产量迅猛增加,从 2000 年的 200 万辆到

2005 年的 570 万辆,6 年内增长 2.8 倍,已逐步成为世界汽车生产大国。2013

年 1 月,英国《金融时报》(Financial Times)委托 5 家专业观察机构(Wards

Automotive, HIS, UBS, Credit Suisse, PwC)进行调查得出预估结论①:2013 年

度中国汽车产量将首超欧洲。我国城市的交通发展没有经历过“马车时代”

直接跳跃到“汽车时代”。与西方国家自马车到汽车的城市规划、道路设计平

稳过渡相比,我们是人力车到汽车的急剧过渡。在道路资源的配置上,城际

高速路、城郊快速路、城市主次干道或支路和生活区道路的比例失调,城市

道路建设明显滞后于汽车发展。北京交通状况就是一个典型的反面例子,首

都被称作“首堵”。同时,北京、上海、广州这些大城市面临的问题,正在二、

三线甚至县、镇以下城市大规模重演。

一般而言,交通系统[43]可被抽象成由人、车、路 3 种重要因素构成的需

求与供给关系。为缓解交通拥堵,在交通需求控制上,一般采取诸如提高中

心城区停车收费问题、征收交通拥堵费、实行错时上下班制度、采取车牌限

制供应或通行措施、优先发展和鼓励使用公共交通和鼓励合乘出行等从需求

产生根源的系列措施;在交通供给配置上,一般采取的措施有:新建多个城

市副中心与城市综合功能区,完成增环路入口、建公交港湾、匝道拓宽、增

掉头车道等各种疏堵工程,增加快速路、主干路、高架路、立交桥、地铁或

轻轨等交通基础设施,等等。

智能交通(intelligent transportation)②,是旨在建立一种能在大范围、全方

位发挥作用的实时、准确、高效的综合运输管理和服务系统,近年来所推行

的以数据采集为主的交通系统信息化工程仅是其中一部分,切实提高交通数

据分析与处理才是关键。当前,交通数据大致有遥感与地理数据、固定点交

通数据和轨迹线交通数据等 3 种。

① http://www.ftchinese.com/story/001048284.

② http://baike.baidu.com.cn/view/1488750.htm.

Page 46: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

46

2.6.1 遥感与地理数据

遥感与地理数据表示了地理位置、分布特点的自然现象和社会现象的诸

多要素,包括但不限于:大气数据、土地覆盖类型数据、地貌数据、土壤数

据、水文数据、植被数据、居民地数据、河流数据、行政境界数据。遥感数

据(remote sensing data)[43]是使用远距离感知目标反射或自身辐射的电磁波、

可见光或红外线等从高空进行采集的地物目标数据;地理数据(geographic

data)①则是直接或间接相对于关联地球各种地理特征和现象的数据。

这里需要解释一下涉及遥感与地理数据的各种坐标的区别和转化问题:

(1) 地理坐标(geographic coordinate),即球面坐标,又称经纬度坐标,是利用

三度空间的球面来定义地球上空间、以经纬度进行存储的坐标系统。(2) 投

影坐标(projection coordinate),即平面坐标,由于地球是一个不规则的椭球,

应进行投影将球面坐标转化为平面坐标进行存储,较常用的有椭球投影

(elliptical projection)和墨卡托投影(Mercator projection)等,其中墨卡托投影又

名“等角正轴圆柱投影”,是由荷兰地图学家格拉尔杜斯·墨卡托(Gerardus

Mercator, 1512-1594)在 1569 年拟定的,主要想法是:假设地球在一中空圆柱

内、赤道与圆柱壁相切,假想地球中心有一盏灯将球面图形投影到圆柱体上,

将圆柱体展开后是一幅标准纬线为零度的世界地图,目前包括 Google Map,

bingmaps, mapabc, mapbar, ArcGIS online 和百度地图等在内的绝大多数在线

地图均采用这一投影标准。(3) “火星坐标”,这是我国以法律形式制定的强

制性规范,采取国家保密插件对真实坐标系统进行人为加偏处理后形成的坐

标。

通常,遥感与地理数据能从以下 3 方面刻画空间实体:(1) 位置,即空

间实体的位置,将其抽象为点线面的拓扑关系和几何特征,由不同的坐标系

统来表述;(2) 特性,用来描述空间实体诸如土地质量等级、土壤质地、土

地沙化程度、土壤侵蚀程度、地形坡度或坡向、环境污染程度、人口密度和

交通流量等各种性质;(3) 时态,所描述的是空间实体的随时间变化过程。

由此,遥感与地理数据处理和分析涉及高维图像、高光谱影像或时间序列的

① http://baike.baidu.com/view/284395.htm.

Page 47: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

47

挖掘问题,研究内容宽泛、较复杂,在此不一一列举。

2.6.2 固定点交通数据

固定点交通数据[43]是指从嵌入式或非嵌入式两种方式安装的固定位置

检测器收集的交通数据。这种固定位置的检测器包括:(1) 环形线圈检测器,

是应用最为广泛的嵌入式固定位置检测器,一般埋设在路面下,根据线圈磁

场的变化来检测计算车速、流量、时间占有率等;(2) 气压式检测器,是一

根中空的橡皮管,一般铺设在路面上,根据车辆通过时车轮碾压所改变的气

压来检测车辆数量和车速;(3) 红外检测器,一般安装在支架、天桥、桥梁

或桥侧立柱上,根据路面和车辆的红外辐射能量对比来检测车辆数据和车速;

(4) 微波或无线电波反射检测器,一般安装在路侧离路肩稍高的立柱上,发

射固定频率或调频连续波以检测车速、流量和车辆间隔;(5) 声波或超声波

检测器,一般较小、被放置在车道上方,通过比较不同音频信号来辨别不同

车型,得出每条车道分车型的流量、速度或车道占有率等;(6) 视频图像检

测设备,一般安装在车道上方或侧面,在视频范围内为传感器设置虚拟线圈

(即检测区),根据车辆进入检测区时背景灰度值的变化来感知车辆存在、启

动视频和图像的采集;(7) 蓝牙交通检测器,原理是建立汽车和道路蓝牙设

备的无线连接,以记录访问控制(MAC)地址、检测时间和路段样本出行时间

等数据;(8) 车辆自动识别(AVI),一般采用车载或牌照 RFID 标签和雷达

LINDAR 识别车辆位置及其通过某两个位置的时间,来得到这两个位置点之

间的流量、流率、占有率、时间以及调和平均速度等数据。

一般来说,由于采集设备种类繁多、持续实时检测和环境或通信设备易

发故障等方面原因,固定点交通数据大多属于数据流(data stream)数据,其特

点在于种类多、维度大、有缺失和联机快速到达等。

2.6.3 轨迹线交通数据

轨迹线交通数据[43]记录的是车辆等行驶物体浮动的运动轨迹线,能直接

或间接反映驾驶者的主观意愿和车辆行驶过程中的环境限制等情况。轨迹线

交通数据开始时是依赖具有全球定位系统(global positioning system, GPS)功

Page 48: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

48

能的车载装置采集的,这种车载装置有专用(如仅有导航一种功能)和通用(具

有导航、安防和娱乐等多种功能)、预装(如 OnStar, G-book 和 ATX 等)和后装

(如高德导航等)等之分,目前随着车载服务(Telematics)技术的拓展,这种装

置还会使用无线接入(wireless local area networks, WLAN)、蜂窝通信(cellular

communication, CC)、专用短程通信(dedicated short range communication,

DSRC)、全球移动通信(global system of mobile communication, GSM)和数字多

媒体广播(digital multimedia broadcast, DMB)等技术。

当前,公交车和出租车都统一装配了轨迹线交通数据采集的车载装置,

这两类车辆都具有运行时间长、在城市整体交通流量中占有量大的特点,特

别是出租车,与公交车的频繁停靠站相比,更有优势,其全天候运营、车型

相对统一和驾驶者特征较相似等特点,使数据具有稳定性,而且分析这种数

据不需要因为车型差别或人群差异进行转换。

2.7 交易数据

交易数据是由商业流通领域大量“交易”而催生的,数据库中知识发现

(knowledge discovery in database, KDD)原本瞄准的目标就是这些数据中所蕴

含的商业价值,故而最早和最多的数据挖掘应用案例均源于此。例如:根据

不同时期、不同商品的销售量状况,回答商家[6]诸如“哪些顾客最有价值”、

“哪些商品可以交叉销售(cross-sell)或提升销售(up-sell)”、“如何在仓库、货

架和资金有限的前提下安排库存”、“如何排除‘同一购物篮同种商品互斥’”

和“公司明年的收入前景如何”等一些重要的问题,以帮助进行顾客分析、

定向营销、货架安排、工作流管理、商店分布和欺诈检测等。

2.7.1 传统交易数据

商业收银机的推陈出新,带动了传统商业流通领域信息化变革:美国波

士顿的利迪兄弟①在 1879 年制造出第一台收银机就能实现营业备忘和雇员监

督功能;20 世纪六七十年代日本制造的电子收银机(electronic cash register,

① 利迪兄弟(Liddy bother):詹敏斯•利迪(James Liddy)和约翰•利迪(John Liddy)。

Page 49: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

49

ECR)和 IBM 推出的基于 PC 架构 POS(point of sale)机,在技术性能和商业功

能上更凸显收款操作便捷、商品管理实时、会计业务准确和销售统计高效。

当前我们不能简单以“线上线下”为标准评价一个企业是否先进,当“收

银条”信息化成交易数据后,有效利用数据资源、合理配置数据资产,传统

零售商同样可以是高科技企业。

以沃尔玛为例,这个在 27 个国家拥有 69 个品牌 10,700 多家分店的全球

零售业巨头①,自 20 世纪 80 年代起就建立了自己的专用商用卫星系统来实

现企业级数据交换,以保证总部与各供应商、配送中心和门店之间数据的准

确及时传送,例如,利用不同时差,获得畅销商品名单、安排后续货架,创

造“一小时数据利用奇迹”。目前,沃尔玛已完成一系列包括 Kosmix, OneRiot,

Small Society, Social Calenda, Set Direction, Grabble 等多家创业型中小企业在

内的总价超过 3 亿美元的收购,并于 2011 年 4 月在距其阿肯色州本顿维尔

(Bentonville)总部 1,849 英里外的加利福尼亚州圣布鲁诺(San Bruno)设立了自

己的数据实验室@WalmartLabs。以顾客消费需求理解为例,@WalmartLabs

通过 Hadoop 和其他开源工具开发了拥有自主知识产权的专用工具 Muppet,

用以分析来自 Facebook, Twitter, Foursquare 等社交网络数据源,追踪其中提

及的地点、用户或商品信息,配合自己的交易数据,来优化沃尔玛选货和备

货。例如,基于 FourSquare 的签到数据实时分析“哪家店在黑色星期五的客

流量最大”;又如,@WalmartLabs 建立有一个关于用户识别的研究团队,能

将实体零售店的交易数据与线上的顾客信息结合分析,优化沃尔玛线下运营

规模,如发放测试账号研究“不同天气是否会导致用户购买习惯的改变”;再

如,@WalmartLabs 研发了基于语义搜索算法的自主搜索引擎 Polaris,理解

搜索要求背后的一些含义以提高销售额,如判断一位女性输入“平”到底是

想要平底鞋还是平板电视。

2.7.2 电子商务数据

近年来,电子商务这种“基于互联网的新商业模式”②正以迅猛的发展

① http://www.wal-martchina.com/walmart.

② 根据全国科学技术名词审定委员会审定公布的术语规范“电子商务”一词定义。

Page 50: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

50

态势改变着商业流通领域,仅从其英文表述:从开始的 e-commerce,到后来

的 e-business,再到现在的 e-economy,就能看出是一个涵盖范围不断扩大的

过程。在我国,根据艾瑞咨询统计①,2012 年中国电子商务市场整体交易规

模为 8.1 万亿元,其中:B2B(business to business)模式占 81.6%;另据麦肯锡

全球研究院 2013 年 3 月的一份研究报告②,在 2011 年,C2C(customer to

customer)模式的市场份额,分别是:淘宝 90.4%、腾讯拍拍 9%和 ebay0.4%;

B2C(business to customer)模式的市场份额,分别是:天猫商城 51.4%、京东

商城 17.3%、亚马逊 3.4%和苏宁易购 3.3%。

尽管电子商务有诸多优势,例如,能提高交易速度、节约交易成本,使

经济活动摆脱了时间和地点的束缚,改变了人群的购物习惯;又如,分割部

分经营利润扶持了结算和物流相关行业;等等。然而,仍有不少人质疑其技

术含量与创新动力,甚至诟病网络零售的“人造”节日(如双 11 狂欢节)“非

但没有拉动消费内需,反而在透支”。以在线旅游市场为例,携程旅游(trip.com)

始终在扮演着“渠道商”的角色,一手掌控近数十万会员资料,以笼络庞大

客户群体向数千家酒店和所有航空公司换取更低折扣,以获取佣金。正当人

们仍无法对电子商务的“高科技企业的成长性和经济回报”抱以期望时,阿

里集团已意识到要着手开发所掌控电子商务数据资源:2012 年 1 月,淘宝组

织编撰和出版了一本出版处理和分析电子商务数据的书——《数据化营销》。

区别于传统交易数据,除了有购物篮数据,电子商务数据还涵盖交易前、

交易中和交易后的商品信息发布、在线营销、售后服务以及支撑电子商务顺

利进行所需的在线支付、物流配送、信用体系等环节相关数据。当前处理电

子商务数据的关注度大多集中在 B2B、B2C 和 C2C 等 3 类模式的买家行为分

析和卖家商铺设计或产品营销及其优化上,数据分析方法和手段较原始,一

般根据在线营销的业务流程、内容和主要特征,对电子商务数据进行较简单

的量度指标提取,这些指标大致有:流量指标、转化指标、推广指标、服务

指标和用户指标等。例如,使用流量指标叠加用户指标,诸如访客数、回访

客数、访问深度、人均浏览量、入站次数、跳失率、停留时间、重复购买率

① http://ec.iresearch.cn/shopping/20130128/192198.shtml.

② http://www.mckinsey.com/insights/asia-pacific/china_e-tailing.

Page 51: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

51

等去分析买家的行为、评价新用户获取成本或老用户的活跃度;又如,使用

推广指标,诸如广告展现量、点击量或点击率、引导成交金额、投资回报率

等去分析卖家在线营销的效率。

Page 52: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

52

第三章 数据产业链

产业链(industry chain)是产业经济学领域一个相对独立的研究层面,是

“介于产业关联经济学与产业组织理论之间的一个研究层次”①,其本质是

用于描述一个企业群结构中某种内在联系的两种属性:结构属性和价值属性。

产业链中的“链”字有“链接”的寓意,进而“链接”是产业链概念的核心。

继 1985 年“竞争战略之父”迈克尔·波特(Michael Porter)首提价值链(Value

Chain)[44]的概念后,产业链被认为②是一个包含价值链、企业链、供需链和空

间链 4 个维度的概念,与其相近或相似的定义还有:价值链、企业价值链、

产业价值链、全球价值链、价值星系;知识链、企业知识链、产业知识链;

产业集群、企业网络、模块化产业结构;等等。

本章仅简单阐述数据产业链,以帮助理解数据产业的内涵与外延和数据

产品交易及其模式。

3.1 数据产业链的概念

数据产业链的概念包括含义、特征和类别归属等方面内容。

3.1.1 含义和特征

根据前人基于价值链的产业链研究[45],产业链的内涵大致涉及以下几方

面内容:一是产业链是建立在价值增值活动基础上的新型企业空间组织;二

是产业链是为满足特定需求或进行特定产品生产(及提供服务)的相关企业的

集合;三是产业链由遵循严格时间顺序、具有供给与需求关系的活动产业链

环所构成的。

结合上述对产业链的理解,我们认为:数据产业链(data industry chain)

是涉及数据产业的产业层次、产业关联度、资源加工深度和满足需求程度的

具体表达,通过数据资源的加工合作串联起的一定地域空间范围内不同企业

之间的供求关系,是一种以数据产品生产为基础的、具有连续追加价值关系

① http://www.acem.sjtu.edu.cn/upload/publish/img/108211133210.pdf. ② http://baike.baidu.com/view/479661.htm.

Page 53: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

53

的关联企业形成的企业联盟。具体来说,数据产业链向上游延伸应进入到信

息产业链末端,囊括数据采集、数据存储和数据管理;中游应包括数据处理、

数据挖掘、数据分析和数据展现;向下游拓深应进入到市场环节,涵盖数据

产品的评估与交易。

由此,数据产业链应有以下若干方面特征:

(1) 资源导向性。表现在:数据产业链中掌控数据资源的上游产业链环

决定着其他中下游产业链环的利润分配。例如,在科学数据领域,万方数据

利用高品牌价值掌控着本应高度分散的诸如学位论文、会议报告、数字化期

刊和科技信息等科学数据资源,中下游产业链环其他企业若考虑开发和利用

此类数据则需要万方让渡部分资源才能工作,一般很难撼动这种主导地位。

(2) 生态效应非显著性。表现在:一是上游产业链环通过掌控的核心资

源,采用“数据资源-数据科技-数据产品”这种“一体化”策略来压缩产

业链以避免产业利润外分;二是尽管中下游产业链环初时没有数据资源,但

数据易于被复制,利用关键技术或市场优势加以控制,同样能采用“一体化”

策略。另外,由于数据产业具有“提升其他产业利润”的特征,区别于其他

产业,数据产业链的生态约束边界也不明显。

(3) 主体独立性。表现在:数据产业链上具有联盟关系的经济主体是各

自独立的。例如,上海证券交易所固定开放部分金融领域数据资源给大智慧、

Wind 资讯等企业进行数据加工,在这种战略联盟关系中经济主体具有独立

性。

(4) 客户定制性。表现在:相比“从个性中提取共性进行通用标准加工”

的工业产品,数据产业链具有明显的定制化特色。例如,政府偏向于精准的,

金融偏向于时效高的。需要说明的是,数据产品的定制需求可能仅源于客户

某些改进愿景、没有细节的粗需求。

(5) 产品无形性。表现在:数据产品是无形的,一般需要通过软件或算

法完成、采用现代通信手段交付,有时候甚至只有一个结论,数据产品的价

值需要在具体应用中体现。

(6) 外部依附性。表现在:数据产业链的上下游产业链环应是一个有机

的整体而非松散的企业联合,上游产业链环不孤立、中游产业链环不断层、

Page 54: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

54

下游产业链环不缺失,这些都离不开外部环境的支持,诸如相关政策(如企业

扶持政策)和法律法规的制定与执行(如数据安全、数据隐私和数据资源保护

等)、人力资源管理、风险资本投入和产业基地建设等。

3.1.2 类别归属

产业链的类别归属问题,属于产业链基本理论范畴的分类研究,不同的

产业领域,因其资源特性、产业发展动力、产业格局、供求关系和市场差异

等不同,均有明显差异。一般而言,可根据产业链内部和外部不同视角[45],

将数据产业链分成以下多种。

1.根据产业链内部企业间供求关系,数据产业链是一种资源导向型产

业链。

产业链内部企业间供求关系,大致可分成资源导向型、产品导向型、市

场导向型和需求导向型等 4 种。显而易见,在数据产业链中拥有资源优势的

企业更具主导性或影响力,数据产业链是一种资源导向型产业链。

2.根据产业链形成与演化机制,数据产业链是一种由技术与经营提供

混合动态效率的产业链。

所谓动态效率是一种能体现在知识、技术和经营偏好等转移的创新效率。

尽管数据科技是数据产业结构中的主导因素,但如何以经营偏好调整或创新

商业模式同样很重要,因而数据产业链是一种由技术与经营提供混合动态效

率的产业链。

3.根据产业链上下游依存程度,数据产业链是一种非依赖型产业链。

根据上下游依存程度,产业链这种“战略联盟关系链”大致能被划分成

垄断型、竞争型和依赖型等 3 种。垄断型是指上中下游产业链环中有一个产

业链环能控制整个产业链;竞争型是指相对上游产业链环能不依赖其下游产

业链环而直接面对市场;而依赖型则是指相对上下游产业链环能互为供应商

和用户、彼此之间存在一种高度依存关系。很明显,前两种均适用、第三种

不适用,所以数据产业链是一种兼具垄断与竞争的非依赖型产业链。

Page 55: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

55

3.2 数据产业链的结构

构成数据产业链由经济主体和环境要素构成,其中:经济主体有 3 类,

即数据资源供应商、多级数据产品提供商和数据产品终端客户;环境要素则

有很多,涵盖数据科技及其产业研究机构、数据产业基地、数据产业基金(或

其他风险投资基金)、政府部门、中介组织、公共服务平台等,其他边缘环境

要素还有人才培训、教育机构和金融机构等。

3.2.1 经济主体

尽管数据资源供应商、多级数据产品提供商和数据产品终端客户是多种

不同的经济主体角色,在现实经济中可能会由数据产业链环中某个企业一力

担当。例如:占有绝对互联网数据资源的 Google,既是数据存储量年增长

15.9%①(2012年较前一年)的数据资源供应商,又是能提供72.1%市场份额②(搜

索引擎)的数据产品提供商,同时也是互联网年度广告收入17.1亿美元 93(2011

年)的数据产品终端客户。

1.数据资源供应商

数据产业链的资源导向特性,决定了数据资源供应商将是其中一种不可

或缺的经济主体,此类经济主体通常拥有大量的数据资源。鉴于数据“依赖

介质存储”这种存在方式,一般而言,应拥有数据中心,但这并非是充要条

件,类似“银行保管箱”业务单纯收取一定费用的数据存储(如 IDC③或云存

储)并不能直接充当这一角色,衡量标志应是:能否进行数据清洗或转换(如

删除数据隐私等)并向下游企业有偿开放资源供应。

2.数据产品多级提供商

数据产品普遍的客户定制特性,决定了数据产品的多样性,从而使数据

产品多级提供商成为经济主体,分为:数据产品总提供商和数据产品二级或

多级提供商。需要说明的是,此类经济主体所提供的数据产品并不一定能拥

有自主知识产权,这是因为数据产品可能仅仅是客户基于其原有历史数据的

① Pingdom2012 年全球互联网数据监测结论.

② iResearch 根据 Chitika2012 年 2 月公布数据研究结论.

③ IDC,即互联网数据中心,英文为 Internet Data Center。

Page 56: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

56

业务流程调整、商务应用优化、营销手段调整、风险因素控制或者是基本架

构上的内容更新等,会被覆盖于客户原有知识产权内,同时这些产品将因“源”

而异,以不同数据资源加工的数据产品不存在通用性。

3.数据产品终端客户

数据产业所具有的能“提升其他产业利润”特性,决定了数据产业链可

面向很宽泛的市场。数据产品终端客户,可能来源于任意一个行业或部门,

而这些行业或部门所定制的各种数据产品将用来强化其本身关键业务,进而

提高核心竞争力。

3.2.2 环境要素

各种环境要素对数据产业链的规模培育和快速发展都很重要,下面选择

其中相对重要的 6 种加以具体说明。

1.数据科技及其产业研究机构

作为一种战略性新兴产业,数据产业需要抢占新一轮数据科技制高点而

非采用以往“引进-模仿-转化”的模式,同时应着力摒弃“文理互嫌”,使

用“经济引导、科技助力”的方式,建立一种跨文理合作的数据科技及其产

业研究机构。这种研究机构应着眼于构建产学研协同新模式,由产业界推动、

挂靠大学或科研院所,从学术层面来研究数据产业发展战略和布局、数据科

技发展战略及其法规建设、数据资源管理、数据资产评价和数据产品流通交

易等问题,以期成为:(1) 国家重要经济战略数据资源储备库;(2) 国家发展

战略咨询服务平台;(3) 有影响力的数据科技产学研创新平台和孵化基地;(4)

数据科技及其产业人才培养重要机构。

2.数据产业基地

数据产业基地应是数据产业企业参与数据产业链分工的重要载体,同时

也应是能提供办公基础设施、整合产业政策和密集人力资源等的合理平台。

这是一种以数据科技研发为导向的面向多领域或多行业的科研园区(science

and research park),应以数据科技及其产业研究机构为中心,将数据资源供应

商、多级数据产品提供商、数据产品终端客户、数据产业基金(或其他风险投

资基金)、数据产业联盟总部等中介组织、人才培训与教育机构和金融机构容

Page 57: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

57

纳其中,通过园区住户的互利合作,整合资源推动企业联合创新,以形成企

业聚集效应,从而形成产业集群,进而有效促进区域乃至国家的创新系统建

设和经济增长。

3.数据产业基金

创新型中小企业的“众生众死”现象是新兴产业培育过程中的一大难题,

该问题的关键是资金。同样,风险资金的适时投入是数据产业这一战略性新

兴产业能否将新的数据科技转换为现实生产力的另一个决定性环境要素。数

据产业基金的投入大致有 3 个时间节点,分别是:初创期苗圃预孵化的研发

资金、市场开拓期孵化的周转资金和上市首次公开募股(initial public offering,

IPO)前期加速的运营资金。

4.政府部门

政府在新兴产业发展进程中所担当的角色很重要,很多政策措施,诸如

加强知识产权保护、规范市场秩序,为创新主体提供相应的财政支持或税收

优惠,以市场为导向、通过产业联盟或公共技术平台等方式引导创新要素向

企业聚集等,能有效推动创新性产业的形成、发展和演化升级。

5.中介组织

中介组织有:产业联盟、市场研究和业务咨询机构等。产业联盟(或有称

为行业协会的)是一类重要的中介组织,能为数据产业链的发展提供有效的沟

通平台和沟通机制,同时还能成为数据资源供应商和数据产品多级提供商的

利益代言人,这种产业联盟有国家层面和地方层面两类。市场研究和业务咨

询机构能对市场发展动态进行研究并提供相关的产业发展信息。

6.公共服务平台

涉及数据产业链的公共服务平台大致有 3 类,分别是:数据产品评价、

数据产品交易和人才培训与教育。这些主要是数据产业链的优化或补充,目

前亟待建设。

3.3 数据产业链的形成

产业链研究一般是以“链”式结构为落脚点、基于价值增值活动的。产

Page 58: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

58

业链形成的根本动因在于产业系统价值的提升,而研究这种产业系统价值的

生成机制,则需要进行产业链价值分析,比如分析产业链价值增值属性、提

供在产业链上各产业链环价值丰度的差异证据等,另外还应找到产业链在不

同维度上的匹配关系,这些维度包括:价值链、企业链、供需链和空间链。

3.3.1 价值分析

产业链价值分析是将价值增值活动作为聚焦点的。根据产业链内部和外

部不同视角,有企业和产业两种角度的差异。在企业角度上,一般是分析产

业链价值的增值属性,在产业角度上,一般是研究产业链上各产业链环价值

丰度的差异。不同研究角度的存在是与产业发展阶段有关的,这是因为:一

些新兴的产业部门常会与现存的经济体系出现摩擦,很多不相适应的问题需

要企业自行解决,因而会出现单一企业纵向一体化涉及整条产业链所有经济

活动的情况;只有当这一新兴产业具备一定规模和发展前景后,才会出现产

业分工,甚至服务外包。

1.价值增值属性分析

从企业角度,根据“单一企业纵向一体化涉及整条产业链所有经济活动

的情况”,数据产业链有三大价值增值属性:数据资源、数据科技和数据产品,

即由单一企业实行“三位一体”策略,同时掌控某类数据资源、控制某些数

据科技,并占据多种数据产品的市场。需要说明的是,由于以前和现存经济

体系中的产业细分延续效应,在数据资源的掌控方面,此类单一企业同时占

据多种数据资源的可能性不大,例如,不可能同时拥有交易数据资源和医疗

数据资源,或者不可能同时拥有政务数据资源和互联网数据资源。

现实中,这种由单一企业构成的“纵向一体化”还能吸引众多中小创业

型企业依附其上,生成为一种“一对多”的产业链,这种生成方式有两种:

一种是由单一企业实行整体收购或服务外包生成的,比如 Facebook 收购社交

分析工具公司 Threadsy;另一种是由中小企业自发依附的,比如为迎合客户

广告需求、针对 Google 或百度排名规则进行的搜索引擎优化(search engine

optimization, SEO)。

由此可见,数据产业链价值增值属性具有以下基本特性:一是价值增值

Page 59: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

59

的连续性,一是最终价值的共创性。

首先,从价值增值的连续性来看,数据产品的形成既可以一次完成,也

可以是一个连续的追加过程。数据产业链的成员企业围绕有效提升其本身的

核心竞争力、追求利润最大化为目的建立联盟关系,由龙头企业有意或无意

引领并压缩产业链、瓜分大部分价值增值,而众多依附于龙头企业的其他企

业则从链环之间有脱节的“逻辑关系和时空顺序”中分享剩余价值增值。

其次,从最终价值的共创性来看,最终价值是由数据产业链中各联盟企

业共同创造的,产业链中每个联盟企业均是价值的创造者,能按照自己在产

业链中的定位为数据产品的价值增值贡献力量,以利于不同企业按照各自的

资源禀赋条件组织与整合数据资源、促进数据科技的发展和提升数据产品的

质量与价值。

2.各产业链环价值丰度差异分析

从产业角度,数据产业链是由“数据采集-数据存储-数据管理-数据

处理-数据挖掘-数据分析-数据展现-数据产品评价-数据产品交易”9

个产业链环组成的。

一般认为,不同产业链环的价值丰度取决于不同产业链环的价值增值空

间大小,例如,价值增值空间大的产业链环,则价值丰度大,被称作产业链

的高端;反之则被是低端。但事实并非完全如此。

(1) 数据采集

数据采集(data capture),又称数据获取,这是数据产业链向上延伸进入

信息产业链的一个产业链环,不可否认其有巨大价值增值空间,甚至于美国

政府克林顿执政期间的系列经济政策,诸如 1993 年 9 月的“国家信息基础设

施行动动议”(National Information Infrastructure: Agenda for Action)、1998 年

2 月的“Internet 税收特权法案”、2004 年国情咨文上将医疗卫生信息化作为

重要问题等,均为以推动数据采集这一信息化基本任务而实施的。然而,作

为数据产业链的输入端,尽管价值空间很大,数据采集这一产业链环的企业

已不能成为数据产业链的高端。

(2) 数据存储

数据存储同样是数据产业链向上延伸进入信息产业链的一个产业链环,

Page 60: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

60

数据中心、IDC 和云计算等都可被视作是该产业链环不可或缺的组成部分。

作为数据产业链而非信息产业链的一个产业链环,数据存储应向但不限于以

下方面发展:一是建设符合低碳、循环等环保要求的“不占地”数据中心,

在这方面①Google 已在领跑,其在 2008 年向美国专利商标局(United States

Patent and Trademark Office, USPTO)提交的一份创建“海上数据中心”

(water-based data center)专利申请中是这样描述的:这种数据中心设置在一艘

或多艘停靠在海边的船上,依靠海水和潮汐发电,同时利用海水的流动来帮

助冷却水泵对数据中心里的机器进行冷却;二是使用新型生物技术开发新的

数据存储介质,在这方面②以尼克·戈德曼(Nick Goldman)为首的英国科学家

团队已于 2013 年 1 月宣布已将 DNA 带入了一个革命性的数据存储时代,“只

需手掌般大小的人造 DNA,便可容纳高达 3 ZB 的数据”;三是使用数据创新

改变现有向需要存储服务的数据所有方“单向收费”的商业模式,如前文所

述,进行适当的数据清洗或转换,向有需求的数据使用方有偿开放数据资源

等。由于数据产业链是一种资源导向型产业链,若数据存储这一产业链环能

借此掌控数据资源,则有一定的价值丰度。

(3) 数据管理

作为数据产业链的一个初始产业链环,数据管理历经了人工管理、文件

系统、数据库系统 3 个较长的发展阶段,首要目的在于实现数据的有效组织

(如描述数据间内在联系、减少数据冗余或者在逻辑上将物理存储分散的数据

保存在相同表空间内等),其次才是数据作用的有效发挥(如使用 select 语句将

所需数据精确查找出来)。然而,当这些以狭隘业务需求为目标设计的不同版

本数据库系统中的数据被摆放在一起,数据库异构和数据混乱等问题让我们

深受困扰。当前,数据管理是数据产业链的一个瓶颈式产业链环,仅仅靠数

据库系统销售策略来带动其价值扩充的可能性已不大,而且数据处理、数据

挖掘和数据展现等三大关键数据科技已逐渐开始摆脱数据组织的影响,故价

值丰度较小。

http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=

%2Fnetahtml%2FPTO%2Fsrchnum.html&r=1&f=G&l=50&s1=%2220080209234%22.PGNR.

&OS=DN/20080209234&RS=DN/20080209234. ② http://www.nature.com/nature/journal/vaop/ncurrent/full/nature11875.html.

Page 61: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

61

(4) 数据处理

从技术手段上,数据处理分为预处理 (preprocessing) 和后处理

(postprocessing),其中预处理的目的是将未加工的数据转换成适合分析的形

式,也称数据准备(data preparation);而后处理则用来确保只将那些有效的和

有用的结果集成到数据分析和数据展现阶段。实质上,作为三大关键数据科

技之一,数据处理的操作任务繁琐,有诸如聚集、抽样、维归约、离散化或

规范化、变量变化、特征子集选择和特征创建等不同策略和技术步骤;另外

对从业人员的数据敏感性要求也很高。例如,在数据预处理阶段,从数据集

考虑数据的维度、稀疏性或分辨率,将具有离散分类属性(如高矮胖瘦、短中

长等)的文本数据,转换成考虑时间或空间相关的具有连续值属性的序列数

据,以适应合适的挖掘方法;又如,在数据后处理阶段,采用统计度量或假

设检验等传统的方法剔除虚假的数据挖掘结果。可以说,这是数据产业链中

相当关键的一个产业链环,具有较大的价值丰度,目前还没有受到足够的重

视。

(5) 数据挖掘

以预测和描述为两大任务的数据挖掘,是数据产业链中代表最核心关键

数据科技的产业链环,属于数据产业链的高端,具有很大的价值丰度。表现

在:从偶发的历史中找到规律以预见未来,或者导出模式以探查结果。

(6) 数据分析

数据分析有两种:一种是为论点找到合适的论据,另一种是从罗列的论

据中揭示论点。传统的统计方法基于一种“假设-检验”模式,侧重于提出

一种假设性论点,设计实验来收集小样本数据以找到相应论据,再针对假设

分析数据;而真正的“让数据说话”是采用所有数据而非精心设计的实验结

果作为论据进行挖掘,在结果中找到或提炼论点。由于第二种数据分析所得

出的论点需要领域专家进行价值确认和评估,因而尽管数据分析不属于关键

数据科技,作为一个产业链环,仍在数据产业链中占有一定的位置。

(7) 数据展现

数据展现主要指的是可视化和可视效果(visual effects)。一般来说,数据

展现动机有两个:一是使用视觉魅力帮助读者快速吸收大量信息,以发现其

Page 62: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

62

中模式;二是使用领域知识有效激发读者新的理解,以聚焦重要模式。尽管

有一般性的可视化展现方式,例如,可视化少量属性的茎叶图、散点图或盒

装图等;又如,可视化时间空间属性的曲面图、等高线图或矢量场图等;再

如,可视化高维属性的矩阵、星形坐标或切尔诺夫脸谱图(cheroff face figure)

等,但对于不同数据(如有类型差异)的数据展现任务,通常具有专门性和特

殊性。进行数据展现,除了要有实用性、钻取性(是否需要钻取到详细数据)

和交互性(是否需要用户与数据展示进行交互)外,还应适当考虑美感:新颖、

充实和高效。数据展现是一个关键数据技术结合创意的产业链环,贯穿于整

个数据的生命周期,因而具有较大的价值丰度。

(8) 数据产品评价

作为数据产业链中唯一的公益产业链环,数据产品评价应是建立在国家

级数据产品评价体系建设基础上的公共服务平台,根据国际惯例和市场需要,

不以赢利为目的地对数据产品提供第三方评价并实施登记和认证,该产业链

环的价值在于:若缺失或存在缺陷将直接影响到数据产业的健康发展。

(9) 数据产品交易

数据产品交易应参照证券、期货或电子货币交易的方式进行,这是因为:

当前的所有证券、期货或电子货币交易的本质是在交易数据。这一产业链环

应涵盖登记、交易和结算等诸多方面,仅以交易手续费 1%为例,若每件数

据产品价值 1,000 元、每日交易 1,000 件,那么每日交易手续费收益就高达 1

万元人民币,因而其具有最大价值丰度,是数据产业链的最高端。

总之,在数据产业链九大产业链环中相对价值丰度集中的分别是:数据

处理、数据挖掘、数据展示和数据产品交易,由此证明数据产业链是一种由

技术与经营提供混合动态效率的产业链。另外需要特别指出的是,数据产品

评价这一公益产业链环的建设很重要。

3.3.2 维度匹配

由于产业链是包含价值链、企业链、供需链和空间链 4 维度的一个概念,

可从四维的“对接”角度来分析数据产业链的维度匹配,聚焦于“链”式结

构研究产业链及其形成。

Page 63: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

63

1.价值链维度的匹配

在价值链维度,产业链与之匹配是一种宏观(维度与维度之间)的“链和

链”的链接,是引领产业链形成和发展变化的一种重要关系,能促成产业价

值的实现与增值。

“数据产业链在价值链维度上的匹配”是由数据资源所决定的。例如,

阿里集团藉由阿里巴巴(B2B)、淘宝(C2C)和天猫(B2C)三大平台掌控的交易数

据资源,能左右与其在同一产业链层次上其他企业的生存与发展。

2.企业链维度的匹配

在企业链维度,产业链与之匹配是一种中观(维度与主体之间)的“点和

线”的链接,即同一产业链中不同产业链环所有企业的“线”型链接,是产

业链的载体及其具体体现形式,可分为:企业和企业、企业和消费者、企业

和环境要素之间的关系。

“数据产业链在供需链维度上的匹配”指的是各类经济主体与多种环境

要素之间的组织层次和业务层次上的匹配。

3.供需链维度的匹配

在供需链维度,产业链与之匹配是一种微观(维度内部)的“点和点”的

链接,是一种表示生成环节和产业层次的客观存在,其着眼点在于产业层次

的划分和技术,由供应链、需求链和技术链构成,包括:生产要素供应链、

物流链、生产者需求链、消费者需求链、产品技术链和技术服务链等。

“数据产业链在企业链维度上的匹配”指的是数据资源供应与多级数据

产品提供的匹配。

4.空间链维度的匹配

在空间链维度,产业链与之匹配是一种“线和线”的链接,是产业链上

同种产业链环在不同地区的分布,有两种分类方法:一是按照对接核心分为

以产业分布的宏观层次、以配套半径的中观层次和以区域经济的微观层次,

二是按照地理上区域大小分为全球链、国家链和地区链。

“数据产业链在空间链维度上的匹配”指的是数据产业链在地域上的分

布匹配。需要指出的是,空间匹配可能会带来时间匹配的问题,例如,东西

半球的企业匹配能形成全球 24 小时不间断的工作连接,从而大大提高双方企

Page 64: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

64

业的运营效率。

3.4 数据产业链的演化

根据前面阐述的数据产业链概念、结果和形成,如图 3.1 所示,数据产

业链的演化应源于数据资源导向的数据科技和资本的积累。

资本

数据科技

数据采集

数据存储

数据挖掘

数据产品交易

数据资源生态效应约束

生态效应约束

数据管理

数据处理

数据展现

数据分析

数据产品评价

数据产业链

上游 中游 下游

图 3.1 数据产业链

参考其他产业链的发展,数据产业链大致有 3 级水平:(1) 初级阶段—

—数据产业链由单一企业纵向一体化控制、初现雏形,上中下游匹配程度不

高,产业链环上存在断环和孤环,数据科技处于积累阶段、资本不充足;(2)

中级阶段——产业链基本完整,数据科技有较高的应用水平、资本较充足;

(3) 高级阶段——产业链有序演化。

为使数据产业链演化尽快达到中级乃至高级阶段,增加驱动因素、优化

演化路径和创新演化机制尤为重要。

1.增加驱动因素

在波特竞争理论、演化经济学、产业组织等相关理论,产业链演化的驱

动因素大致有:竞争环境、技术进步和市场选择等 3 方面的驱动因素,这些

均是以产业链的经济主体中生产者为考虑角度的。

Page 65: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

65

从不同角度考虑同样能增加数据产业链演进的驱动因素。例如,以经济

主体中消费者角度,应增加需求因素作为数据产业链演化的驱动因素;以类

别归属角度,应增加资源配置作为数据产业链演化的驱动因素。另外,资本

投入、政策优惠等也应作为其驱动因素被增加进去。

2.优化演化路径

一般而言,产业链的演化路径有 4 种:向上延伸、向下拓深、纵向扩展

和横向细分。

在这 4 种演化路径中:由于数据产业是信息产业的升级,向上延伸可能

性不大,这是因为数据产业链的向上延伸是指进入信息产业链的末端产业链

环,意味着需要重置信息产业链;同时,向下拓深长度也有限,这是因为数

据产业链的向下拓深仅有数据产品评价和数据产品交易两个产业链环,前者

数据产品评价产业链环尽管不可或缺但属于公益产业链环、价值空间不大,

而后者数据产品交易产业链环虽是数据产业链高端却深受数据产品质量、价

值及相关市场等多重束缚。

既然,数据产业链的演化只有纵向扩展和横向细分两种演化路径,那么

应采取的优化演进路径策略有两种:一是以数据科技发展的累积带动数据产

业链纵向扩展,二是由数据资源和数据产品的细化促进数据产业链横向细分,

由此数据产业链的演化结果如图 3.2 所示。

数据资源 数据科技 数据产品横向细分 纵向扩展 横向细分

图 3.2 数据产业链的演化

Page 66: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

66

3.创新演化机制

不同产业链的演化机制既有相似又有差异,由于数据产业链是一种资源

导向型产业链,其演化机制应遵循以资源产业链演化机制为出发点、结合文

化创意产业链演化机制,进而实施创新。主要有:减少对资源依赖,实现完

整性演化;发挥多种驱动因素效应,实现有序演化。

3.5 数据产业链的治理

产业链治理,即在选定的产业链环相对上下游纵向交易的经济主体间的

组织关系或制度安排[46][47]。正如美国杜克大学全球化、治理和竞争力研究中

心的加里•格雷菲(Gary Gereffi)所认为的,产业链治理是在一个连续统一的系

统中,各行为主体介于完全市场和等级市场关系之间,对产业链上各行为主

体所从事的经济活动进行的非市场性协调(non-market coordination),是某些

企业设置和实施的,以供产业链中其他参与方遵守的规则和条件。

同样,数据产业链治理是一个协调产业链上不同经济活动的问题,可分

为两种:一是内部治理,即针对企业自身的内部单元,用来协调自身经济活

动以增加企业核心竞争力;二是外部治理,即针对有交易或联盟关系的其他

经济主体的权力整合、责任与利益分配等问题,用来加强数据资源加工、数

据科技研发和数据产品生产的互动或合作。

3.5.1 治理模式

为有效实现数据产业链治理,选择适当的治理模式尤为重要,本节参照

格雷菲等人给出的 5 种全球价值链治理模式“市场型(market)、模块型

(modular)、关系型(relational)、俘获型(captive)和等级型(hierarchy)”进行比较。

1.市场型治理模式

市场型治理模式是在市场中通过一系列企业间公平市场关系

(arm’s-length market relationships)完成的,其中的连接纽带是市场价格。该模

式的特点在于:交易复杂度低、产品标准化高。对于数据产品,存在上游企

业按照自身对于市场需求估计而开发完全标准化的情况会较少,这种治理模

Page 67: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

67

式在数据产业链尚未完善前基本行不通。

2.模块型治理模式

相对于市场型治理模式,模块型治理模式适用于产品规格和标准等更为

复杂的产品并形成明确分工的交易,本质上是一种合同式制造(contract

manufacturing),其中的连接纽带是契约。该模式的特点在于:交易复杂度高、

产品标准化高。对于数据产品,这种明确分工表现为需求与设计而非传统的

设计与生产,这是因为:数据产品本身可能只是针对某种数据资源所设计的

挖掘,这种治理模式同样在数据产业链尚未完善前也不易行得通。

3.关系型治理模式

关系型治理模式适用于有相互依存度的交易,一般通过声誉、社会与空

间的临近、家族或伦理道德机制等来实现[46],其中的连接纽带是制衡,即上

下游企业能力互补、有杠杆制约效应。该模式的特点在于:交易复杂度高、

产品标准化低。这种治理模式是未来数据产业链治理一种较为理想的模式,

这是因为:数据产品生产时,合作双方在合作初期可能仅有合作意识,而对

其产品轮廓和最终结果等都没有很清晰的概念,但是一旦关系双方通过共同

努力将合作结果转化为产品后,各自都能从不同方面获取均衡的收益。

4.俘获型治理模式

俘获型治理模式,是一种出现在产业链未完善或无序状态时趋向于由上

下游企业中的一方担任领导企业的独占交易,其中的连接纽带是控制。该模

式的特点在于:交易复杂度低、产品标准化低。这是一种数据产业链治理的

有效模式,担任领导企业的一般是能掌控数据资源的企业。

5.等级型治理模式

等级型治理模式是 5 种治理模式中唯一一种内部治理模式,属于产业链

纵向关系治理的一个极端,是发生于一体化或层级式的组织结构内并由居于

组织上层并掌握权力资源的部门或环节发起的治理,其中的连接纽带是管理。

这是当前数据产业链治理的一种典型模式。

应当看到,任何一种产业在不同时期所使用的治理模式都不是一成不变

的;而产业链治理模式随着市场变化或技术进步发生变革,即是一种创新。

由此,在实践方式上,当前数据产业链治理应首推“等级型治理辅以俘获型

Page 68: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

68

治理”的混合治理模式;而在未来,由点向面的蔓延扩散将会代替自上而下

的推行方式,因而关系型治理将是比较理想的一种治理模式。

3.5.2 治理工具

产业链治理模式是用来合理判断治理主体与治理对象关系的,而如何有

效地实现产业链治理还需要选择或设计合适的治理工具。一般而言,产业链

治理工具除了有涉及市场价格、契约、制衡、控制和管理的诸如发起、谈判、

监督、修改、实施和终止等制度性框架体系外,还有资质认证和相关标准等。

1.制度性框架体系

制度性框架体系,是针对各种产业链治理模式不同连接纽带的主要功效

所设计的,在一定开销下(如有限理性和机会主义),从企业能力和交易成本

等角度,由选定的产业链环相对上下游纵向交易的经济主体一致认可的协定,

包括:涉及的当事人、协定条款、双方义务、违约处罚、费用计算和仲裁政

策等,其根本目的是未来让合作双方达成一致的清晰共同愿景、限制违规行

为,以达到或超过事先约定的目标。

针对数据产业链,这类制度性框架体系应涉及技术、服务、商务和质量

等诸多部分:(1) 技术部分,除了类似其他如信息产业等的各种衡量业务的

通用技术参数、指标集和性能检测方法等外,还要以特别数据来证实数据产

品;(2) 服务部分,除了合作双方协商好的范围、等级、方式等相关内容外,

还需追加一些临时服务或需求变更的定价原则描述;(3) 商务部分,除了各

种满足或违背承诺的业务等级奖励或赔偿额度约定外,应包括超过约定水平

的激励政策;(4) 质量部分,除了数据产品质量评估或检测,还应包括在技

术、服务和商务部分的质量相关情况汇总或对可能出现的问题进行预防性处

理。

2.资质认证

资质认证的对象应涵盖数据资源、数据科技和数据产品,以证明一个企

业或组织所掌控数据资源的资产价值、所使用数据科技的技术层次、所生产

数据产品的技术层次或者所提供数据服务的管理水平等是否符合国际或国家

相关标准、技术规范或其他强制性要求,包括综合条件、业绩水平、管理能

Page 69: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

69

力、技术和人才实力等多方面的评定。

3.相关标准

标准是数据产业链治理的核心工具,配合制度性框架体系和资质认证使

用,对于涉及数据产业链的所有经济主体或环节要素等各参与方均有重要意

义:对于数据资源供应商,用以评估数据资源、评价数据资产;对于多级数

据产品提供商,用以提升数据产品质量、确保数据服务可信赖;对于数据产

品终端客户,用以确认消费需求;对于数据科技及其产业研究机构,用以指

导相关数据科学研究、数据科技研发和数据学相关学科设置;对于数据产业

基地,用以指导建造楼堂馆所的功能导向;对于数据产业基金(或其他风险投

资基金),用以控制资本投入和收回、确保利润并减少退出成本;对于政府部

门,用以规范和引导数据产业的发展;对于中介组织,用以协调联盟企业关

系;对于公共服务平台,用以制定或调整并出台更为合理的标准;等等。

目前能用于数据产业的信息产业相关标准有:(1) 针对企业服务能力和

内部流程的软件能力与成熟度标准体系,如能力成熟度模型 (capability

maturity model, CMM)或能力成熟度模型集成 (capability maturity model

integration, CMMI);(2) 针对企业知识产权保护和信息安全的信息安全管理

标准体系,如审计标准声明(statement on auditing standard 70, SAS70);(3) 用

于指导实施标准化的信息技术服务标准,如信息技术服务标准(information

technology service standards, ITSS)。这里需要指出的是,专门涉及数据产业的

标准亟待设计、制定或根据已有标准进行适度调整。

3.6 数据产业链的创新

数据产业链创新,在范围上,有较为宽泛的创新谱,创新结果从渐进性

变化到根本性变化、大小不一;在形式上,涵盖过程创新、传递创新、商务

模式创新、技术创新、产品创新、服务创新、专门化创新、管理创新、组织

创新和市场创新等诸多方面。创新不仅能加大数据产业链本身各个产业链环

的产业利润,还能提升数据产品终端客户所在产业的竞争优势并推动其转型

或升级,继而将区域创新嵌入国家创新体系,进而对中国乃至世界的经济格

局产生影响。

Page 70: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

70

3.6.1 创新层次

与其他产业链不同,除了有单个产业链环创新和产业链环间创新两大层

次外,数据产业链创新还有跨产业链创新这一特有层次,故分为 3 个创新层

次,每个层次均包含不同的创新类型。

1.单个产业链环创新

数据产业链单个产业链环创新的主体是数据资源供应商和数据产品提供

商,是这两类数据产业链经济主体的自身创新。这种自身创新有诸多表现,

例如,在服务或商业模式上,改变现有有偿开放数据资源提供模式;又如,

在数据科技上,将已改进的数据挖掘算法加以标准化说明,以适用不同数据

资源的同种数据类型;再如,在解决方案或业务流程上,采用针对项目内成

员偏好来设置动态的项目进程安排,优化内部运营效率。

2.产业链环间创新

数据产业链产业链环间创新的主体涉及数据产业链中所有经济主体和环

境要素,体现为不同的产业链治理模式并需要选择不同的治理工具,具体有

资本运作模式、雇用成熟度模型、合作协力模式和管理方式选择等多种。

3.跨产业链创新

作为一种数据数据产业链特有创新层次,跨产业链环创新内容有标准互

认、协同创新和资源分享等,表现在:一是数据产业链自身网络的创新,这

是一种提升数据产业链自身网络整合效率的创新,在全球范围搜寻和吸纳有

数据创新能力或竞争力的企业或组织加入;二是形成不同产业战略联盟网络

的创新,使用已有数据案例吸引不同领域或行业客户突破自身生态效应约束

转型或升级。

3.6.2 支撑体系

数据产业链创新支撑体系比较复杂,是由所有经济主体和环境要素构成

的社会网络形成合力构建的。经济主体能否有效利用知识溢出效应

(knowledge spillover effect)以拥有良好的人力资源;环境要素能否积极发挥作

用,如资本适时投入、政府部门的政策扶持或税收优惠、金融机构的信贷倾

Page 71: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

71

向、中介组织或公共服务平台的资源整合等,均能从内部或外部推动或阻碍

数据产业链创新。

1.人力资源支撑

人力资源支撑,即:利用知识溢出效应,直接提升员工个人的领导能力

和创新能力、间接提升员工整体的共同经验和群体技能,促使人力资本增值。

有如下对策:一是培育创新文化,创新依赖于人的积极性和创造性发挥,需

要有效措施激发创新;二是鼓励参与创新,将创新作为绩效考核内容,合理

安排关键创新人物工作量;三是积极开展培训,以培训促进外部知识内化、

内部隐形知识(tacit knowledge)扩展。

2.资本支撑

资金是数据产业链创新得以持续的有效保障,一般来说创新主体只能在

有充裕资金支持的产业链环节上才能进行持续的创新活动。资本支撑有 3 种

方式:企业自筹、政府出资或风险投资。然而,中小企业自筹资金的有限性、

各级政府财政出资的功利性,以及商业资本对科研院所非商业化研发的回避

性等资本投入问题,直接制约了新兴产业的产能扩张。由此,我们应采取的

对策是:加大在高增值产业链环的投资力度。因为,只有当资金大量流向高

增值环节,才能在一定时期一国或一地区的重点投资所形成独特的投资结构,

这不仅能决定产业创新的方向、规模和幅度,还能在一定程度上决定下一时

期的产业发展格局;同时,相对低增长的产业链环才会因资金匮乏而衰退。

3.公共服务支撑

公共服务支撑,应由政府、数据产业基地、中介组织和公共服务平台共

同搭建,目的在于增强数据产业企业或组织之间各种形式的联系和合作,以

增强数据科技的共享水平和效率,促进创新成果的应用和传播,有效整合政

界、学术界和企业界等各方资源。

4.法律法规支撑

为营造一个良好数据产业竞争环境,需要进一步规范相关法律法规,其

中包括:数据资源的保护、数据资产的寡头与反垄断、数据开放获取、数据

隐私和假数据问题等。

Page 72: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

72

第四章 已有的数据创新

当前,对如何表述数据创新的特征有争议,究竟是“颠覆式”还是“增

量式”的,相持不下。支持“颠覆式”的说,一个个针对用户体验改善的微

创新,正是所有颠覆式创新的典型特征,滴水穿石、绳锯木断,越来越多“小

而精”、“快而准”的企业足以颠覆世界;“增量式”的支持者则认为,“颠覆”

一词颇具贬义,既然是一点一滴的突破就应属于增量式创新。无论谁能“笑”

到最后,最不容置疑的是数据创新的力量已在汇聚。

4.1 网络创作

随着我国人均受教育年限的不断提升,国民文化素质有了整体提高,继

而借助互联网,网络创作异军突起。网络创作种类鳞次栉比,已从最初追求

本真或自我表现的网络小说发展到现在持独有理念的各类创意设计和定制开

发,很好地演绎了游离于正统、主流文艺之外的“草根”创作的繁荣。

需要说明的是,网络作品,这种在创作之初起就以数据形式存在的网络

创作智力成果,其实质就是一种初级数据产品,并且这些数据产品正在被继

续创新。

4.1.1 网络小说

早期的网络小说是完全免费的。在那时,涌现的大多是长篇,集中发表

于北大未名、水木清华等校园论坛,创作者基本是在校大学生,题材主要是

与创作者年龄、创作环境有关的幻想小说。这些人的创作动力是寻求读者共

鸣、唯一追求的回报是长评,甚至有作者要求回帖多少或是多长才继续更新,

更有甚者将活跃读者的名字代入小说,这是一种作者与读者网络互动所缔结

的创作,很大程度上读者促成并参与了写作。其中,较著名的有 Tinadannis

的“冤鬼路”四部曲①,其第一部《冤鬼路》于 2000 年开始在网上连载,肇

始于校园论坛的中大逸仙时空,随后在公众论坛天涯社区的莲蓬鬼话等人气

论坛红到鼎沸,保守估计有超过 3 万家网站转载。

① http://baike.baidu.com.cn/view/713092.htm.

Page 73: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

73

由此,一些致力于原创文学作者培育的文化人开始关注网络文学,以推

动文学原创的非商业宗旨,创建了一批原创文学网站,如坚持“文学是大众

的文学”的榕树下、获得梦网“原创大赛”第一名的晋江文学城和玄幻文学

协会创办的起点中文网等。

网络创作的第一次数据创新,源自成立于美国硅谷的中文创作与阅读网

博库(bookoo.com.cn)“作家作品签约付酬”和“收费下载与阅读”的商业理

念,尽管其已在 2001 年迫于“以免费为通行法则”而倒闭,但确实领导了第

一次文学向商业的冲击;2003 年 10 月,起点中文网发展了博库的理念,开

创了一种被称为“电子出版”的新方式,一改传统“线上收稿、线下出版”

的模式。这种模式需要作家签署付酬签约协议,有两种:一种是每千字 3 分

钱的二一分成,另一种是每千字 50 元到 100 元不等的买断分成。该模式一度

引起追捧,在 2011 年百度推出的“十大梦想新职业”中,网络作家位居第二;

2012 年 6 月,盛大网络集团董事长陈天桥宣布盛大文学开始盈利。如今网络

创作题材不一而足,玄幻、穿越、架空、官场、修真、机甲、盗墓、命相、

重生、灵异……甚至还有叠加,比如穿越后又重生的修真文。网络小说的这

种盛行也创造出不少专用术语,如“坑”(未连载完的原创文章)、“追文”(跟

随作者连载速度阅读)、“养肥”(等作者连载一段时间再看)等。当然,剑有利

弊,这次数据创新的后遗症也不少,例如,为取得丰厚酬劳作者组团写同部

小说,致使:创作高产化、动辄篇幅达数百万字,文体差异化、前后章节文

风不同,等等;又如,稿酬不丰的作品存在严重的作者“弃坑”现象,各种

理由层出不穷,或因病,或因孕,还有的甚至借口买烧饼、遁了……

网络创作的第二次数据创新,源于许多文学原创平台的作品营销愿景,

使用了一些数据分析。例如,细化了小说类型、内容或体裁等,以方便读者

选择,如将小说类型分类成言情、童话、奇幻、武侠或者传奇等、将小说内

容分类穿越历史、报仇雪恨、豪门世家或者前世今生等,将小说体裁分类成

正剧、喜剧、悲剧或者走轻松路线等。又如,根据读者点击、购买、打赏①或

投票等各种情况来分析是否推封、何时升级作者签约类型,或是引导作家写

① 打赏,是读者给作者的一种鼓励的方式,额外赠与一些用货币购买的虚拟物品,收到

虚拟物品的作者可以选择适时变现。

Page 74: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

74

作方向等。其他还有优化站内搜索引擎和实施个性化小说推荐等。

值得注意的是,盛大文学在陆续收购了起点中文网、晋江文学城、榕树

下、红袖添香网、言情小说吧、小说阅读网和潇湘书院七大原创文学网站后,

已占据网络创作市场的近九成。

4.1.2 创意设计

所谓设计①,是将一种计划、设想、规划或问题解决方法使用视觉形式

表达出来的活动,涉及广告、建筑、艺术、工艺品、时装、出版、软件、音

乐、表演艺术和广播电影电视等许多方面,分为平面与动画两大类、大致有

3 个设计层次:初级设计、次设计和创意设计。其中:创意设计是设计的顶

级,除了要求作品常规的新颖、实效和深度等外,还需融入理念,既能强调

设计师的超前,又可照顾到受众的感受。

当前,针对设计双方,已有了一些数据创新,例如,在 2006 年成立于重

庆的猪八戒(zhubajie.com)正在做创意设计的数据“买卖”,直接将“创意变

现”②。

对于设计的需求方,客户所面临的是设计师选择,即如何挑选符合心意

的设计师。不同客户对设计师的标准均有差异,有的会参考设计师的设计功

底、创作风格,有的主要评判设计师的创新精神、创意水平,还有的则考虑

设计师的市场意识、需求领悟能力或时间观念。目前,有很多设计师已将自

己信息诸如个人资料、已有作品、承接范围和客户评价等在个人主页或第三

方平台上罗列出来,鉴于此,一些网站增加了筛选功能,以帮助客户缩短或

简化挑选设计师的时间、流程和工作量,例如,对设计师进行分类,如按照

性别、年龄区段、客户评分、创意类别和设计费用等。

对于设计的实施方,设计师迫切要解决的是素材挑选,即如何在合适的

素材库中按自己独有创意遴选或规避相应的素材数据。素材数据通常有:文

字素材(符号和语言文字)、声音素材(声响、语音和音乐)、图形素材(矢量图)、

图像素材(位图)和多媒体素材等多种。在现有的方法中,除了对素材备注信

① http://baike.baidu.com/view/14417.htm.

② http://www.xcf.cn/jrdd/201212/t20121221_389579.htm.

Page 75: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

75

息进行关键字检索或者使用图形图像相似性查询(即以图找图)外,还有参考

Google 搜索排名方法的,例如,记录大多数设计师的筛选动作,如浏览了哪

些、停留了多久或录入了什么等,从中分析内容,比如究竟点击的是“第 1

页的第 7 个素材还是第 7 页的第 1 个素材”,随即优化搜索结果,将被更多人

点击的素材提到较为靠前的位置。

4.1.3 定制开发

定制①对应的英文单词是“bespoke”,最早出现于英国伦敦一条专为客户

量身剪裁制衣的购物街区——萨维尔街(Savile Row)。

依托互联网、打破百年来延续的工业标准化生产,让客户介入生产过程

而进行的“个性”定制,已逐渐成为各种厂商的常见促销手段。这种定制与

农业或手工业时期的不同点在于:其一,可能仅是基于标准商品的微改变或

是商品制造程序的小修正,比如客户指定将某个性图案印制在一件 T 恤上,

衣服的生产流程还是原来的标准,仅多加了一个图案;其二,有时这种定制

需求不是由消费者专门提出来的,而是源于厂商的客户意见征询,用以制造

适合用户个性、价格低廉的产品,例如,大众汽车曾在 2011 年推出过一个“大

众自造”项目②,使用网络平台广泛收集用户从汽车创意、设计、建造多角

度意见或理念,以期打造用户心中的完美车型,当时曾有人对此嗤之以鼻,

让这些人大跌眼镜的是,最终统计结果共有 37.6 万用户参与其中。

在定制开发领域,已有的数据创新就是对普查式调查问卷或消费者历史

商品订购所累积的数据进行分析,获得消费者的偏好以生产带有“个性”标

志的标准商品。目前看来此做法的好处是双重的,消费者能获得规则或流行

定制者的同等话语权,得到含有自己意图的个性商品,甚者掌握定价;而厂

商,一则能避免狭隘市场调研可能带来的决策失误、合理规划生产进程,二

则能提高品牌价值、减少产品滞销的可能。

① http://baike.baidu.com/view/545862.htm.

② http://www.zaoche.cn/build.

Page 76: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

76

4.1.4 项目众包

传统的项目管理(project management)是项目负责人在统辖有限资源条件

下,为实现既有目标而进行的计划、组织、指挥、协调、控制和评价。

2006 年,《连线》(Wired)杂志记者杰夫·豪(Jeff Howe)发明了一个术语①:

众包(crowdsourcing),用以描述一种“以个体为单位参与全球合作”的劳动

力组织方式。作为“外包”的升级版,众包与以往项目管理的区别在于:项

目负责人只需要在初期拆解既定目标、在末期合并项目成果即可。

目前,一家名为 Clarizen 的公司提供了一种能解决项目众包的数据创新,

大致有以下方面内容:一是能为项目选择不同风格的管理模式,如敏捷开发

管理;二是帮助将既定目标分解成可视化的子任务和子项目;三是方便安排

合适雇员,促成团队协作;四是便于查看项目进程,及时通知项目变更或下

一里程碑任务;五是自动创建项目分析报告,减少开会、发邮件或状态更新

汇报等。为此,该公司在 2012 年 6 月获得由 Vintage Partners 领投的 1,200

万美元 E 轮融资。做类似工作的 Wrike 公司,同样受到风投的青睐,获得了

TMT Investments 领投的 100 万美元融资。

当然,项目众包中的数据创新并不仅于此,还有诸如获取作息习惯等员

工固定偏好,结合所承担工作量,以更清晰的方式分析所辖资源、追踪项目

进度和安排异地实时协作等。

4.2 数据营销

早在十多年前关系数据库鼎盛时期,马里兰大学经济学教授亚瑟·休斯

(Arthur Hughes)就提出了数据库营销(database marketing)[48],其是直销营销

(direct marketing)的一个分支。数据库营销着眼于持续收集和分析与顾客需求

满意度相关的数据,从而获得更高的顾客让渡价值,以利于培养顾客忠诚度、

建立并稳固“客户资源”。

这里的“数据营销”并非“数据库营销”,与数据库营销基于关系数据库

系统的高精确性数据有所不同,数据营销能容忍结构多样、类型复杂的数据,

http://www.ee.oulu.fi/~vassilis/courses/socialweb10F/reading_material/7/crowdsourcing.pdf.

Page 77: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

77

是一种基于高混杂性海量数据挖掘的营销方法,涵盖了数据库营销。应当看

到:尽管当前数据营销还比较冷门,但丝毫不影响其突破行业或领域限制的

大量应用。

4.2.1 市场定位

市场定位(market positioning)即营销定位,是营销的三大核心要素之一。

按照定位理论创导者杰克·特鲁特(Jack Trout)和阿尔·里斯(Al Ries)的观点,

定位是从产品开始的,是一种对现有产品的改变,但改变的仅是“名称、价

格和包装”而非实质,其目的是令产品“与众不同”、“确立品牌”进而形成

企业核心竞争力。因而,市场定位的关键是如何进行产品分析。

针对围绕市场定位关键的产品分析而展开的诸多方面,如产品差异化程

度分析、人群分类和市场反馈处理等,数据营销已各有创新。

产品差异是市场结构的一个主要素,除了完全竞争市场(产品同质)和寡

头垄断市场(产品单一)外,通常是普遍存在的。故而,企业控制市场的程度

基本取决于自身产品差异的显著性。从营销角度,这种显著性的取得指的是

如何使用消费者的购买路径和偏好等方式来微调同质产品。以航空公司销售

机票产品为例,手段是:分析历史订单数据,了解一般情况下机票提前预订

的时间间隔和价格舱位、获悉直航和一次转机航线偏向性选择的大致价格差

距,以识别顾客机票购买的决定过程,从而相应调整不同阶段机票各舱位的

折扣状况。

人群分类为解析顾客提供了一个独特的视角,是指从用户兴趣、行为或

表现等方面进行综合考量,聚合不同人群的行为分析并实现消费路径跟踪。

一般需要先抽象出某一人群的特质以形成专属人群分类属性标签,以实现人

群的定向划分。以电子商务网站为例,分析购物车点击记录,将多次重复操

作添加和取消同一件商品的顾客作为同一人群,选择适当时机向其推荐类似

其反复操作物品但稍便宜或更质优的商品。

市场反馈 (market feedback)是营销系统闭合循环 (plan-do-check-act,

PDCA)中的重要检查环节,用来生成、报告营销结果,以理解产品差异化程

度、判断营销战略的决策力和执行力。在本环节,数据创新已突破了传统的

Page 78: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

78

调查问卷采集数据、嵌套反馈模型的分析方法,使用 Zillabyte、GoodData 等

数据分析工具来挖掘多源复杂数据,实施市场行情跟踪。

4.2.2 商业洞察

商业洞察,属于第三方营销范畴。第三方营销是一种以实现增值为目的

的原有营销体系改进和创新,通常有两种方式:一种是主动合作,生产厂商

主动参与组织策划,与营销第三方企业或组织按照约定或协商比例分享收益;

一种是被动合作,生产厂商默许营销第三方企业或组织加入营销活动以实现

共赢。商业洞察是后一种方式。

商业洞察同样通常从市场调研(含产业剖面)入手,涉及品牌确认、广告

推广和业绩考察等多方面的分析、预测或案例研究,以期在庞大市场中发现

商业机会,从而加速品牌建设、合理战略决策,进而提升营销推广效能。因

而,商业洞察是与数据收集与分析有关的。

品牌(brand),不仅仅是商标,应涵盖商誉、产品、企业文化以及整体营

运的管理,“现代营销学之父”菲利普·科特勒(Philip Kotler)甚至认为品牌是

“指代企业产品与服务的骄傲或优势象征”。相对于生产厂商对自持品牌的维

护与完善,营销第三方的品牌确认相对客观,故而能帮助生产厂商准确了解

市场反馈并实现产品差异化。商业洞察中的品牌确认,一般包括:涉及渗透

率、保有量和市场关注度等的品牌分布分析,包含产品质量、市场表现和经

营交易在内的品牌竞争维度分析,以及品牌销售潜力预测等。目前已有多家

营销第三方将品牌识别(含美誉度、创新力、影响力和领导力)、渠道建设、

客户拓展、媒体表现、搜索力、市场活动和口碑多方面的复杂数据进行集中

处理,以实现品牌确认,比如世界品牌价值实验室(World Brand Value Lab)的

品牌词指数、品牌竞争指数,又如百度在线营销的品牌探针,等等。

广告推广于营销至为重要,效果好坏的标准是能否明确目标用户及其媒

体接触习惯。这是因为:广告概念挖掘、故事板测试、广告投放前测或广告

效果测试等各阶段工作,围绕的均是目标用户的指向性,若针对性缺失将直

接导致所有工作努力的失败;而目标用户的媒体接触习惯在很大程度同样影

响广告推广的效果。目前精准广告被一致认可,其改变了以往看重“内容或

Page 79: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

79

主题”的营销理念,凭借网络这一新兴媒体,锁定目标用户的兴趣或偏好,

针对性更强。

业绩考察,有些类似市场反馈,是由营销第三方企业或组织介入的检查,

用以获取整个行业或领域各阶层的关键信息,以实时洞察促销活动的投资回

报、企业业绩管理,并能实现供应链预测、获知客户关系(如客户忠诚度)等。

在这方面,创新性数据解决方案一般围绕互联网大量动态供需信息、产品历

史业绩或当前趋势和上市公司披露的财务报告等进行协同分析。

4.2.3 客户评估

当前,客户关系管理(customer relationship management)已逐渐从流程、

财务等环节进入营销领域,其中客户评估是一项较重要的前置内容。从营销

角度,需要被评估的客户一般被分成现实客户、可能客户和竞争者的客户 3

种,其中:现实客户即具有需求、购买权和购买力并与该企业或组织达成交

易的已有客户,而后两种则经常被合并称为潜在客户。

在客户评估方面已有的数据创新,大致能被分成改进型传统营销模式、

数据库营销和数据营销 3 个阶段。由于消费者的需求复杂多变和厂商资源的

相对有限,前两阶段均将关注度集中于现实客户资源掌控与流失防范上。与

采用客户评估表的改进型传统营销模式相比,基于关系型数据库系统的数据

库营销实现了客户资料完整和精确信息化,能对现实客户进行深层次剖析式

评估,特别易于掌握“单个客户”的消费心理、特征和行为。数据库营销的

缺点在于:一是难以分析潜在客户,二是对已有客户群体的购买习惯、兴趣

偏好和短中期需求等多种规则划分不力。

为弥补上述缺陷,数据营销试图从互联网海量非结构化数据中找到较有

质量的销售线索,用来展现消费者购买行为特征、对不同品牌及产品特征的

偏好;比对消费者现有产品拥有情况(如数量、品牌或类型)与未来购买意愿

的关系;分析消费者购买周期或品牌转换情况;揭示消费者未来购买意愿、

偏好及购买行为的主要影响因素;对比具有不同购买行为及偏好的消费者的

分布;研究以消费者重视因素为基础的市场细分等,以实现对客户评估。此

类典型的数据挖掘工具有 Mintigo、百度的“消费者画像”等,其中:Mintigo

Page 80: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

80

能为不同公司描述其现实客户群特征的特定“客户密码”(customer code),并

以此密码作为寻找潜在客户的重要线索;“消费者画像”源于 2011 年百度与

宝洁的一项创新实践,通过消费者细分、市场现状或剖面分析等,洞察关键

字背后潜在客户的兴趣点、网络媒体接触点、地域行为差异、生活形态、品

牌认知等情况,以玉兰油产品为例,百度借此发现该产品的关注人群与适用

人群认知存在混乱,由此宝洁相应调整了营销策略,特别推出了一款标注有

适合 25 岁女性使用的产品,结果热销、大受欢迎。

4.3 推送服务

推送服务基于的是服务器推送(server push)技术,简称是服务器推、别称

是 Comet,是继 AJAX 之后 Web 技术中又一备受追捧的新技术。服务器推是

与传统的“客户端发出请求、服务器响应”相反的一种现实应用。

鉴于浏览器/服务器模式(brower/server, 或称 B/S 模式)较客户端/服务

器模式(client/server, 或称 C/S 模式),有跨平台、免客户端维护、扩展性好和

界面友好等优点,目前已有越来越多的 Web 应用转为 B/S 模式,Google 甚至

提出了“有了浏览器,就不需要微软”①的口号。然而,B/S 模式在 AJAX 应

用中有一个致命缺陷,那就是浏览器与服务器之间不像客户端与服务器之间

那般存在持久连接、双向传递数据,所以浏览器为了模拟实时交流,需要通

过轮询(polling)技术不断刷新页面来获得最新数据(如更新股票价格),这种方

式不但浪费服务器资源,而且在每次建立或关闭连接时都有一定的延迟,有

时这种频繁延迟令人无法忍受。以苹果 iPhone 3.0 以上推送机制为例,过程

是:应用服务器——APNs(apple push notification service)——查找 iPhone——

应用程序弹出通知,只要 APNs 和 iPhone 能够正常通信,所有更新就能在第

一时间到达用户,较轮询更为节省流量。

当前,为实现数据同步而展开的推送服务,在实施之前还需针对用户不

同来源或主题的收藏、转发、忽略和屏蔽等行为进行分析,以用户喜好筛选

所推送的数据以提高命中率,涉及数据创新大致有 3 类:精准广告、即使新

闻和消息广播,一般都具有碎片化、多元化和实时性等特征。

① http://www.caijing.com.cn/2008-09-05/110010719.html.

Page 81: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

81

4.3.1 精准广告

“精准广告”一词源于百度在 2007 年百度世界大会上提出的一款数据产

品——百度精准广告,百度为此还专门申请了专利。这款产品主要结合了搜

索排名原理和网络广告投放形式,一旦锁定受众,会在多个超流量级频道开

放广告位进行跟踪投放、达到有效频次,直到产生点击行为并计费。其收费

价格以“流量报价、按点击付费”,定价标准根据广告主所在行业、覆盖目标

受众 cookie 文件的量级等因素由系统自动生成,每个点击 3~10 元、最低

120,000 元起,根据地区不同:全国范围每天最低消费 10,000 元、单省或直

辖市最低消费 5,000 元。由于定位明确、受众细分程度高,百度精准广告吸

引了宝马、奥迪、路虎等多款高档轿车成为第一批尝试客户,投放效果颇佳,

后来还吸引到房地产、金融、数码、酒类、奢侈品等行业中的顶级公司。

当前,精准广告的定义已外延为:是一种以追踪用户 cookie 文件进行特

征挖掘并按广告主需求锁定受众的广告推送模式的泛称。精准广告发展速度

很快,已从第一阶段的地域定向投放、第二阶段的客户兴趣或偏好投放,演

变为目前阶段的针对用户行为投放。以 Gmail 为例,以前仅在侧边栏推送与

邮件正文中一些关键字匹配的广告,后来额外分析发件人或邮件是否阅读,

现在除了广告还使用 Google Offers 推送“所在地区”团购或折扣提醒等。打

个比方来说,若经常切磋厨艺,Gmail 除了在侧边推送厨艺培训课程或者厨

具商店广告外,还会推送所在地区餐饮店菜式促销信息。

热衷于精准广告的还有各大门户网站。在 2008 年末“互联网冬天”后,

原先的三大广告行业大客户:汽车行业进入低增长、房地产行业资金链断裂、

IT 行业忙于裁员自救,各大门户网站的广告收入均严重下滑,新浪、网易、

腾讯、搜狐等若干中文门户不得开始调整原先简单“贩卖”新闻的策略,将

希望付诸于精准广告,并且对其的期望已不仅停留在让浏览者“能”接触到

广告,而是采用效果可衡量甚至动态反馈等技术进行跟踪用户在线活动,直

接或间接取得用户的意见或兴趣并反馈给广告客户。同时,同一固定广告位

针对不同用户投放精准广告,还能向多个广告主收取费用,收益自然丰厚很

多。

Page 82: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

82

另外应被提及的,是一种涉及媒体和广告代理机构行业的商业模式创新,

同样属于精准广告范畴,即实时竞价(real-time bidding),这是一种为优化匹

配买卖双方时间、针对互联网每一个用户展示行为进行评估与出价的竞价技

术。其优势在于:能通过“每次曝光均报价”来匹配最佳的广告资源与广告

目标,例如,上游买家可以针对广告资源所展示的时间、人群等各种属性作

为参考,实时参与广告资源竞买,灵活把握每次展现,以规避传统的重复人

群覆盖、广告资源浪费等问题。

4.3.2 即时新闻

新闻的英文表达“news”有两种不同解释:一是由“新的”(new)引申出来

的,一是由北(north)东(east)西(west)南(south)各第一个字母拼凑起来的,综合

一下即是“新的东西南北发生的事情”,其六要素可被表达为 5W1H(when,

where, who, what, why, how),即时间、地点、人物和事件的起因、经过和结

果。由此,新闻有及时性、真实性和简洁性 3 个特点。

当前,有一种能凸显新闻及时性的移动互联应用——即时新闻,已被行

业人士确认为很有媒体价值。以搜狐新闻为例,在“4·20”雅安地震中,最

早实现推送的时间是 2013 年 4 月 20 日上午 8 时 15 分,仅离地震发生 13 分

钟;三分钟后(8 时 18 分)地震直播间上线,同时加入寻亲、报平安环节,首

次将来自灾区的声音直播传递;截至 22 日 19 时,在线人数达 223 万。

然而,即时新闻的特色并不限于此,还有互动性,其不仅逐步培养了用

户接受新闻推送的习惯,还一改传统新闻播报的单向性,真正让受众参与互

动,第一时间、无限空间。因而,即时新闻能凭借黏性用户的“跟帖”习惯

分析各种评论的优质原创内容,是一款实现内容挖掘的数据产品。

从目前来看,即时新闻接近一半的国内市场份额①已被搜狐(占 31.8%)和

网易(占 18.0%)两大品牌瓜分:搜狐重点对新闻用户评论实施观点挖掘,进行

话题再设计和二度创作,如“神吐槽”;网易则与使用 Digg 支持机制的问答

社交网站知乎合作,将用户“跟帖”实施内容挖掘,进行多角度深度解读,

如“另一面”。

① http://www.enfodesk.com/SMinisite/maininfo/articledetail-id-357643.html.

Page 83: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

83

4.3.3 消息广播

消息广播(message broadcasting)是一种采用点对面非对等关系向多个目

的站点开放扩展投递分组拷贝的差时消息推送方式,在传播途径上分为人际

传播、群体传播、组织传播和大众传播等 4 种。

与同样采用差时推送的邮件广播相比,消息广播的差时性更小,特别还

能在客户端关闭的状态下被及时收到。以腾讯微信为例,推送的消息以提示

方式显示,消息是以碎片化的对话、知识、问候、奖励或活动之类的文字、

图像或音频等数据。

消息广播本身也具有差异性。这种差异,有的表现在消息内容上,如位

置服务类推送的是定位或地图的更新、游戏类推送的是邀请或聊天、视频类

推送的是近期热点等;有的表现在数据类型上,不仅有文字,还有图片、多

媒体等;还有的表现在用户阅读方式上,例如,微博用户获得推送后进行的

是浏览,一种在时间线上“刷”消息的阅读方式,而微信用户则是阅览,带

有专注性;其他的差异就不在此一一列举了。

一般来说,用户对广播式推送的消息质量要求很高,甚至一旦收到内容

不对路的劣质消息,用户会连带对发送者产生抵触情绪。因而,消息广播应

涉及更多的数据创新,用以获得用户间私密互动的精准性,例如,通过用户

背景、活跃程度和关系链等挖掘,区分用户类别;又如,分析登录设备参数

和当前位置等数据,以使消息百分百送达。

4.4 商品比价

这里的商品比价,英文表达应是“price comparison”①而非“price parity”,

指的是一种考虑商品价值(或价值转化形态)与供求关系等因素的单纯价格比

较,而非货币经济学(monetary economics)在宏观层面所阐述的货币、商品和

价格关系。

早期纯粹的商品比价工具即是一种初级数据产品,是由电子商务的普及

而催生的。在我国,由于立足于“中国制造”的中小企业 B2B 模式已被阿里

① http://baike.baidu.com/view/204003.htm.

Page 84: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

84

巴巴、中国制造网(made-in-china.com)和聪慧网(hc360.com)等大型第三方平台

垄断多数市场份额(占近八成),进而众多小电商放弃了 B2B 而转向尚呈不完

全竞争的 B2C 市场。为比较同一时期不同购物网站上各种商品的价格,大量

基于搜索引擎优化的比价工具应运而生,此类比价工具的商品数据通常源于

互联网、采用网络爬虫爬取,有的则通过合作方共享获得,如旅游深度搜索

的去哪儿(qunar.com)、以图搜商品的安图搜(antuso.com)和合并团购商品的团

800 导航(tuan800.com)等。

以 O2O(online to offline)模式为代表的互动交易(interactive trading mode)

催生了一种全业态商业大战使用的混合线上线下价格比较工具,这是一种需

要借助条形码、二维码等扫描工具或应用来识别商品标识的比价方式,引导

消费者在购物中“先‘查’再‘比’后‘买’”,典型的有我查查(wochacha.com)

和阿里一淘(etao.com)等。

现阶段,这一领域还有其他方面的数据创新,如发展比价衍生物、创造

消费需求和实行动态定价等。

4.4.1 比价衍生物

在消费者进行比价时,附加商品百科普及、防伪比质查询和产品缺陷提

示等,是在商品比价领域在内容上的数据创新。易于理解,商品百科普涉及

的是商品功能说明、用途规格、消费指南、典型应用或常识,其他还有选购

技巧和流行趋势等;防伪比质查询涉及的是与商品可信度相关的权威防伪说

明和质量检测报告(包括抽检、自检、送检)等内容,用以制约个别商家价格

欺诈或伪劣销售等不良行为;产品缺陷提示涉及的是不符合人身、财产安全

的国家或行业相关标准的提醒,如曝光新西兰奶源检出的“双氰胺”事件等。

除此之外,一站式快递单号查询也是一种较为特殊、涉及服务质量评价

的比价衍生物,这是在数据资源共享上的创新。一站式查询较传统官网查询

更为便捷,其通过调用不同快递公司官网的数据接口实现数据共享,既能获

知物品所在位方便及时跟踪,又能实施快递服务比较,如派送范围、服务收

费,以及评价与投诉等,从而快速获取快递质量与预期差距,帮助提升电商

物流环节的客户满意度。

Page 85: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

85

4.4.2 Groupon 需求创造模式

2011 年,我国一度有超过 5,000 家团购网站在克隆全球发展速度最快的

Groupon 公司,演绎“千团大战”。如火如荼的“疯狂”增长之后,“烧钱”

度日、盈利模式单一的团购行业因发展前景不明朗迅速走向寒冬,大批已经

死亡或者正在死亡,根据团 800 导航的统计,截止 2013 年 2 月底,真正意义

上还在维持运营的团购网站数量只有 943 家①,相对历史高位的 5,058 家②存

活率仅为 18.6%。由此可见,这些同质化竞争的团购网站除了依赖融资实行

超规模发展之外,并没有“抄袭”到 Groupon 模式的获利精髓。

Groupon 模式源于美国,主要代表有 Groupon 和 Woot,特点在于使用数

据创新创造需求,让冲动消费由被动为主动,表现在③:每天只推出一款严

格限制人数的“秒杀”折扣机会,诸如餐饮、SPA、美容美发、摄影、游艺、

跳伞或高尔夫等商品或服务。正因为同类中“每天只推出一款”,确切了解“提

供的什么”、“为谁提供”和“如何提供”就非常重要,其目标客户有两类:

一是消费者,二是商家。既需要从与用户保持联系的邮件营销(email direct

marketing)、社会性网络服务(social networking services)等工具中挖掘消费者

观点,以了解折扣吸引比例、促销活动所能满足消费者需求的真实状况等问

题;又需要从商家现实客户分析计算产品边际成本、如何吸引潜在客户,从

而同时扮演合适销售渠道和有广告价值媒体平台双重角色,以保证商家能通

过折扣出售商品或服务获得利润和充分曝光度。

所以,现今仍存活的团购网站应开始摆脱诸如高薪挖角、烧钱炒作、争

抢地盘和商业欺诈等市场份额不良竞争手段,开展数据创新,将消费者体验

和商家营销两大价值摆在首位,进而多方共赢、实现盈利。

4.4.3 Decide 价格预测模式

动态定价(dynamic pricing)是源于航空公司追求机票收益最大化为目标

的一套管理理念与方法,一种随时间、渠道、产品或客户等因素变化频繁调

① http://zixun.tuan800.com/a/tuangouxingyexinwen/20130417/45462.html.

② http://zixun.tuan800.com/a/tuangouxingyexinwen/20111128/25305.html.

③ http://baike.baidu.com/view/3714719.htm.

Page 86: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

86

整价格的商业策略①,一般有:时基定价策略、市场细分策略和限量配给策

略等。例如,基于市场细分,把握超前型购买者对新款时装或创新电子产品

等愿意支付更高价格的特征,在不同时间或渠道设置价格。

由于较实体零售商欠缺地域差价优势,电子零售商更多地将动态定价作

为盘活库存、保证出货量和购买率的常见手段,比如在亚马逊售卖儿童服装

的 Cookie’s,每隔一刻钟就修改一次价格,以保住排名的领先。

2011 年 6 月,曾做过空军预报员的 Decide 联合创始人奥伦•埃齐奥尼

(Oren Etzioni)仅凭着“价格预测推荐”②这一概念就从 Google 创始董事会成

员拉姆•施拉姆(Ram Shriram)和 Expedia 前首席执行官埃里克•布拉克福特

(Erik Blachford)等人那里募得了总计 850 万美元的融资。

Decide 模式首先解决的是基于时间线的商品价格跟踪问题,通过专用的

预测算法对涉及上亿条价格波动与 40 多种价格影响因素(如新品发布周期、

新闻报道和公司公告)数据实施挖掘,同时以低门槛的操作体验和全面直观的

结果进行展示。这些数据创新包括但不限于:在技术博客等中搜寻新消息或

传言实施文本挖掘,以全面展示新产品更新时间线、预测未来发布时间点;

对某款产品多个用户或专家评价实施观点挖掘,并进行自动打分,等等。另

外,从 2012 年 10 月起 Decide 开始尝试一种“失败包赔”的价格预测服务,

将之前免费预测转为 5 美元包月或 29.99 美元包赔付费制,在此计划下,若

商品在 Decide 给出的最佳购买时机后仍继续降价将予以差价补偿。目前,

Decide 已为超过 1,000 万的用户省下了 1.27 亿美元潜在开销。

在中国,同样有大批比价网站,相比 Decide 的技术驱动和用户导向,数

据创新力不足,很需要数据科技及其产业研究机构的介入。

4.5 疾病预控

疾病预控,即疾病预防与控制(disease prevention and control),是整个人

类社会的美好愿景,是以疾病、致病因子、机体、人群和社会等多种因素综

合起来作为研究对象的,可分为:疾病预防(disease prevention)、疾病控制

① http://baike.baidu.com/view/3865273.htm.

② http://tech.qq.com/a/20121215/000007.htm.

Page 87: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

87

(disease control)、疾病消除(disease elimination)和疾病消灭(disease eradication)

等 4 个层次。

“伏羲制九针”、“神农尝百草”等神话传说,有力地证明了千百年来人

们为征服疾病千百年来持续不懈的努力,同时也说明了医疗临床实验是其中

一种通过干预和控制发现研究对象规律较为有效的方法和手段。近年来,随

着医学领域数据的爆炸式累积,越来越多的医疗临床实验已转变为实验对象、

搭建环境和使用工具均为“数据”的数据实验,由此在疾病预控方面大量数

据创新应运而生。

4.5.1 流行病追踪与预测

一般而言,当某种疾病的观察值超过预期值①,就称该疾病正在流行。

作为预防医学的一个重要组成,流行病学(epidemiology)研究的是人群健康与

疾病分布规律及其影响因素,传统方法是采取调查、观察和询问等,设计调

查问卷、搜集数据并建立统计模型,针对可能的疾病相关因素实行检验。

搜索引擎这一初级数据产品,使追踪与预测流行病有了较新的方法,其

里程碑为:2008 年 11 月,Google 公司的杰里米·金斯伯格(Jeremy Ginsberg)

等人[49]在《自然》杂志上发表的一篇题为“运用搜索引擎查询数据检测流感

疫情”②的文章。在其后的 2 年间(2008~2009 年),Google 和 Yahoo 分别通过

各自搜索引擎发现并追踪了流感传播路径,有效阻止了流感的大范围传播;

2010 年,Google 基于搜索结果又推出了“流感指数”(Google flu trends),提

供预警。

当前,在流行病追踪与预测上又有了更新的方法。2012 年 2 月,在数字

疾病监测国际会议③上,哈佛大学医学教授、《大连接》(Connected: The

Surprising Power of Our Social Networks and How They Shape Our Lives)作者

尼古拉斯•克里斯塔基斯(Nicholas Christakis)提出了使用社交网络追踪流行

病的构想。而后,被美国《创业家》(Entrepreneur)杂志评为 2012 年度“百家

① http://baike.baidu.com/view/43711.htm.

② 文章原题为:Detecting Influenza Epidemics Using Search Engine Query Data。

③ 会议英文正式名称为:International Conference on Digital Disease Detection。

Page 88: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

88

卓越公司”(100 Brilliant Companies)的 Sickweather 开始实施这一构想,其跟

踪 Facebook 和 Twitter 状态更新或发帖,从中筛选 24 种症状以追踪全球疾病

传播状况,并得到许多有趣的结论①,比如,美国康涅狄格州的哈特福德

(Hartford)和首都华盛顿两个地区的疾病传播速度最快;又如,体育盛事“超

级碗”对流行病传播有重要影响,在比赛期间患病人数是俄亥俄州代顿市

(Dayton)人口的两倍多等。Sickweather 创始人格拉汉姆•道奇(Graham Dodge)

就此评论说,基于社会网络数据挖掘较搜索引擎进步很多。

4.5.2 基因测序:从疑难病症的诊治到预防

自 20 世纪 50 年代以来,生物学研究已从细胞级别延展到分子水平。1986

年,诺贝尔生理学或医学奖获得者纳托·杜尔贝科(Renato Dulbecco)率先在

《科学》杂志上撰文[50]提出,应实施人类基因组测序计划,以更多了解肿瘤

等疑难病症。

基因测序或称 DNA 测序,其实质是一种使用先进数据管理技术、应用

数据挖掘工具实施的生物数据整合与分析。早前病逝的苹果公司传奇总裁史

蒂夫·乔布斯(Steve Jobs)所罹患的胰脏癌死亡率很高,一般发病到死亡的时

间周期为半年至一年。乔布斯之所以能被延长 8 年寿命、赢得肿瘤确诊后 7

年的苹果再次商业奇迹,很大程度上应归结于他曾进行了基因排序——乔布

斯是世上仅有的 20 个完成了自身基因测序的人之一,包括哈佛大学、斯坦福

大学和约翰霍普金斯大学在内的多个全美顶级高等学府的研究机构加入了乔

布斯整个基因数据文档的分析工作。

在由中国企业家俱乐部主办的经管杂志《绿公司》2012 年第一期上,记

者吴琼以《iDNA: 揭秘生命源代码》一文以点概面理顺了当前涉及疑难症基

因测序的商业脉络,并强调基因测序的价值在于:预知、预防而非单纯的诊

治,是“通过对一系列人类易感疾病基因的扫描,预知老年痴呆症、胰腺癌、

乳腺癌等疾病的罹患风险,予以生活方式、用药指导上的建议,以此抑制病

灶基因的激活”②。例如,好莱坞著名影星安吉丽娜·朱莉(Angelina Jolie)近

① http://www.199it.com/archives/51516.html.

② http://www.qikan.com.cn/Article/ligs/ligs201201/ligs20120127.html.

Page 89: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

89

日自爆因遗传性乳腺癌和卵巢癌易感基因(hereditary breast and orarian cancer

susceptibility gene)缺陷,已接受预防性的双乳腺切除术,以降低罹癌风险。

全球基因测序行业的著名公司有:美国的 Incyte 和 DNA Direct 公司、冰

岛的 deCODE 公司等,但真正以基因数据分析见长而名声大噪的是拿到《时

代周刊》2008 年度最佳发明奖的 23andMe。23andMe 公司除了通过基因数据

挖掘远古祖先病史了解遗传关系、搜索基因组找出比较影响某些性状的基因

群等外,还基于基因搭建了一个相似基因性征的社交网络。值得一提的是,

23andMe 的联合创始人安妮·沃西基(Anne Wojcicki)是 Google 创始人谢尔

盖·布林(Sergey Brin)的妻子。目前,Google 对基因数据分析愈发热衷,另

外投资了一家暗含搭建 DNA 搜索平台 Navigenics。

Page 90: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

90

第五章 领域数据服务

这里针对第二章所列举的 7 种领域数据资源说明未来有可能涉及的数据

创新,以促进这些特定领域数据服务水平的提升,创新商业模式,进而帮助

形成数据产业企业。

5.1 科学数据服务

长久以来,支持或否证问题本身的诸如自洽性、洞察力、精确度、统一

性及其与其他理论的相容度或竞争性等各种证据数据的收集难度,使科学研

究被割裂为基础研究、应用研究和开发研究 3 大类。由此,围绕科学发展与

科学观为核心的科学研究象限划分一度成为学术界热衷的问题,著名的有诺

贝尔经济学奖获得者弗农•拉坦(Vernon Ruttan)基于波尔象限、爱迪生象限和

巴斯德象限的新 4 分类[51]等,用以了解不同研究类型的核心特征,例如,驱

动源、外部限制、回归性和有用性等,借此获取新知识类型或知识新工具。

然而“分久必合”,以获取尖端知识为目的而进行的原始性发现和基本数

据产出,已不再能满足我们对空间、地球、环境乃至人类本身的科学探索的

需要,正逐渐演变为基于全部科学数据资源的知识发现。

因而,学术界涉及知识积累、人才培养和科技创新等各种工作,比如学

术训练、学术交流和科研项目完成等,皆能因数据创新而由难变易。

5.1.1 文献查找变革

培养与造就一名优秀学者,需要进行系统、严格的学术训练,这种学术

训练有两方面内容:一是培养区别于剽窃抄袭的适当借鉴、征引和注释等学

术道德与规范习惯,二是以开展创新性研究、积淀学术底蕴为目的的前沿领

域文献阅读、讨论、思辨和综述。

暂且不论如何培育学术修养,围绕文献学习,现阶段,研究范畴乃至学

科与专业的分化与细化直接导致了文献数据集繁多、数据量巨大和数据格式

异构等问题。例如,仅以复旦大学图书馆为例,馆藏文献的常用数据集(含外

文)就有 268 个之多;又如,绝大多数文献虽已使用信息化手段进行编辑,但

Page 91: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

91

可供下载的版本大多还是印刷稿的扫描图像,致使文献学术资源之间没有现

成的施行无缝浏览和互操作方法。因此,当前的文献查找,依赖关键词检索、

以人工搜索为主,既枯燥繁琐又费时费力。

可喜的是,有一些文献数据集开始使用文本挖掘工具以增强语义功能和

HTML 标记机制,例如,德国欧洲分子生物学实验室的 Reflect①使用了外部

服务插件对基因、蛋白质或小分子进行标注,并将其链接到相关外部数据条

目;又如,2009 年牛津大学的大卫•肖顿(David Shotton)等人[52]针对 PLoS 期

刊中热带疾病文献数据集开发了一个引文本体(citation typing ontology, CiTO)

能对每篇文章进行引文分析,如背景、知识先例和驳斥等,还实现了摘要统

计、参考文献可重排、链接其他研究文章,以及与 Google 地图的数据融合等。

借此我们来想象一下未来的文献查找:将文献数据集建立在通用、可互

操作的语义层面,采用更好的搜索引擎抽取文献摘要进行查询、分析或匹配,

除了能统计期刊 SCI 影响因子外,能按照同行评议对文献进行索引、得到引

文分析图表;能将可视化操作引擎引入文献中的数学公式或算法;甚至还能

合并某个研究方向最新已有工作,借梳理来预测未来研究趋势;等等。

5.1.2 研究脉络探寻

学术交流(academic exchanges),指的是通过各种途径,诸如国际性、区

域性高层论坛、学术会议、专题研讨会和科普讲座等,进行的各种观点切磋、

成果展示等学术沟通与交流,其本质是打破研究界限或破除学科壁垒,以实

现科学群体驱动的知识管理与创造。

当前,由于前沿关键研究保密性封闭、科技工作者队伍扩容等现实状况,

学术交流存在诸多问题,例如,经济问题,有的研究人员缺乏科研经费支持

无法参加一些国际性高层次学术会议,或者有的学术会议因经费筹措窘境无

法邀请到业界顶级专家参与;又如,合作问题,有些顶尖高校或研究机构的

学者不屑于参加水平等级较差的学术会议,或者到科研实力较薄弱的科研院

所进行演讲;再如,体系问题,出版体系中的学术成果认可与同行评议之间

联系紧密程度不高。由此,学术交流变相成为拓展学术人脉、争夺学术资源

① http://reflect.ws.

Page 92: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

92

的一种手段。在 2010 年 12 月的 PLoS One 杂志上,哈佛大学医学院生物医

学信息中心的李景俊(Kyungjoon Lee)和艾萨克•科哈尼(Isaac Kohane)等人[53]

通过研究 1993 至 2003 年期间哈佛医学院约 3.5 万篇所有被 PubMed 收录的

两人以上合著文章后,撰文指出:学者之间物理距离越近,合著论文就越多;

特别地,第一作者与最后一位作者(即通讯作者)之间的距离同文章的影响力

高度相关,对此现象的另一种解释则是“肥水不流外人田”。

应当看到,数据是在科学探索过程中的关键要素,应被作为科学界实施

学术交流的首要对象。当前,涉及的数据变革有两方面内容:一是在源头上,

基于元数据获取的开放文档管理协议(open archives initiative protocol for

metadata harvesting)等将半监督学习(semi-supervised learning)、直推学习

(transductive learning)或主动学习(active learning)多工具用于新的科学研究文

献编辑和引文罗列,以作者学术文章写作过程中的额外开销换取其他学者的

便捷工作;二是在过程上,建立学术知识的机器可操作化表达、统一资源标

识符(uiform resource identifiers),让作者在发布学术论文的同时公开科学记录

数据(如工作流、数据集和科研过程等),帮助其他研究人员或学习者规避重

复研究,或是找到新的研究路径加速知识发现。

因而,结合现今已开始的数据变革,未来的学术交流将集中于探寻和梳

理科学研究脉络,基于论文的描述性元数据、引文数据和科学记录等的挖掘,

做到:清晰解读学术成果、密切作者与读者互动。例如,简明了解某一学者

在过去若干年中研究工作开展路径;又如,方便跟踪一些国家或区域跨多个

科学领域研究的演进方向;等等。

5.1.3 科研项目服务

在科学研究中,设立科研项目的目的是为了开展学术竞争,因而能否获

得科研项目资助及其层次高低、金额多寡,是一种衡量申请个人或依托单位

科学研究实力的重要标准。

一般来说,各级各类科研项目均涉及项目申请、立项论证、组织实施、

检查评估、验收鉴定、成果申报、科技推广和档案入卷等内容,而基本上每

项内容都有大量的文书材料制作要求,比如立项阶段有申请书、执行阶段有

Page 93: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

93

工作进程或阶段性小结、完成阶段有结题报告,其他重要原始记录还有①:

审批文件、任务书、委托书、设计方案、协议书、实验研究调查、论文清单、

幻灯片演示文稿、成果奖励材料、经费收支结算表等,目前这些文书材料都

已数字化编撰,属于科学记录数据的范畴。

应当看到,国际科技数据委员会(Committee on Data for Science and

Technology, CODATA)和国际科联世界数据系统(World Data System, WDS)等

国际组织在科学数据共享的方法学、技术、标准和管理等方面的极力推动,

已使得科研项目成果的开放获取得到了很多国家或地区在法律和政策上的极

大支持,特别是国际间合作科研项目,数据共享程度很高,如政府间地球观

测组织(Group on Earth Observations, GEO)于 2005 年开始建立的全球地球综

合观测系统(Global Earth Observation System of Systems, GEOSS)项目等。

与之相比,无论是国际层面还是国家及以下层面的科研项目,在项目申

请和执行过程中的数据创新存在较大不足,具体表现在:一是文书撰写工作

量偏重,以撰写申请书为例,具体内容无非是科研项目设立状况、项目名称、

申请人及其依托单位状况、课题组成员组成情况、内容摘要、立论依据、研

究基础、研究目的、研究意义、研究内容、研究方法、技术路线、可行性分

析、结果预测、创新点和经费预算等,虽大同小异但在文字排版上会耽误较

长时间还容易出差错;二是项目过程跟踪效率低,仍以申请为例,例如我国,

科研项目在设置上呈现多元化和多层次,既有纵向划分的国家级、省部级和

市局级,又有横向划分的企业或海外基金等,既然科研项目的设立出发点是

鼓励创新和激励竞争,应对科研项目实行类似论文的数据重合度校验,这样

才能防止部分研究者“鱼目混珠”使用同一研究成果申请多个科研项目。

由此,科研项目服务上的数据创新,既能将申请人从繁重的课题文书制

作负担中解脱出来,又能通过跟踪科研项目的执行状况对其加以监督改变;

同时对项目评审人来说也有益处,通过多份申请书异常挖掘,能罗列不同申

请人的差异,既能降低评审工作量,又能使公平最大化。另外,对于为鼓励

中小企业发展而设立的产业化基金项目,同样适用。

① http://baike.baidu.com/view/3006293.htm.

Page 94: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

94

5.2 政务数据服务

哈佛大学政治学教授梅尔里•格里达(Merilee Grindle)曾撰文指出[54],“如

果没有一个有效的政府,不仅经济发展会受到阻碍、人民福利会遭到损害,

市场和民主同样无法正常运作”。因而,一直以来,西方理论界推崇使用“政

府协同治理”(government collaborative governance)这种由理念、结构与运作

方式三合一协同框架来评价政府的公共管理绩效,比较著名的有世界银行

(World Bank)在 2003 年所提的 6 种综合指标①:政府效能 (government

effectiveness)、监管质量(regulatory quality)、法治(rule of law)、腐败控制

(corruption control)、政治稳定与杜绝暴力(political stability and absence of

violence)和话语权与问责(voice and accountability)。

电子政务近 20 年的发展,为政府实施治理创造了良好的条件,以我国为

例,有的部门网上涉政审批公共服务数量已超千项。然而,与公众真实需求

相比,政务服务的实用性和有效性仍有待加强,如存在审批栏目设置不合理、

查找困难、信息公开不当机密泄露等情况。因而,在实施政府协同治理的后

电子政务时代,需要创新政务数据服务。只有进行了数据创新,才能准确获

悉民众对涉政事务的真实需求,基于此,才能进行电子政务模块功能优化、

披露内容校验和过程动态监测等,以提供便捷、精准和高效的公共服务供给,

从而有效弥补“真实需求”和“政务供给”之间的差距,进而实时掌握各级

政府的公共管理绩效。例如,美国奥巴马政府于 2011 年 9 月在白宫网站上所

启动的“我们人民”(we the people)网上请愿系统,这种具有“网络问政”的

新功能模块,是有数据搜索与挖掘技术支持的。

现阶段,进行跨部门、跨区域政务数据创新操作难度较大,建议政府的

不同部门可从自身出发、循序渐进。

5.2.1 公安部门

公安即公共安全(public safety),美国政府部门经常将公共安全管理与紧

急事态管理(emergency management)或突发事件管理(incident management)在

① http://info.worldbank.org/governance/wgi/pdf/govind.pdf.

Page 95: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

95

许多场合混用,可见公共安全部门所拥有的政务数据具有很强的时效性。2013

年 2 月,世界排名第一的协同化解决方案供应商 SAP 专门委托知名民意调查

机构 Penn Schoen Berland 进行了一项关于数据实时性调查,结果显示①:在

接受调查的近 200 名美国政府 IT 官员中,有 64%的联邦政府 IT 官员(共 100

人)和 76%的州政府 IT 官员(共 98 人)认为实时大数据(real-time big data)对公

共安全部门极其有利(extremely beneficial),能用来预防犯罪(crime prevention)

而非简单的解决犯罪,比如预测有可能发生犯罪活动的时间和地点,以大幅

度减少特定地区的整体犯罪率。

事实上,非实时的犯罪数据也很有用,目前包括 IBM 在内的多家公司已

着手进行犯罪预测②。2011 年 9 月,IBM 宣布收购全球著名的犯罪情报数据

分析公司 I2,同年 11 月推出了一个利用数据分析预防犯罪的广告片,声称

已将美国部分城市(包括孟斐斯、纽约、查尔斯顿和南卡罗莱纳州等)的犯罪

率降低了近 30%,片中警察在罪犯作案之前赶到现场,如同电影《少数派报

告》的现实版;数据分析工具公司 Morphotrak 为警方所提供的服务,除了有

指纹、掌纹、人脸图像和签名等一系列生物信息识别外,还有案件卷宗归档

数据查询服务;ParAccel 是业界久负盛名的犯罪数据分析公司,其通过与罪

犯监控公司 SecureAlert 合作,分析超过 1.5 万个监控性罪犯、犯罪团伙成员

和家庭或其他暴力犯等的行为监测数据,向执法机构提供参考性较高的犯罪

预测。另外,参与预防犯罪的还有一些研究机构,在 2012 年 2 月的《美国公

共卫生杂志》(American Journal of Public Health)上,密歇根大学罗伯特•利普

顿(Robert Lipton)等人[55]通过将波士顿各区酒类出售、毒品犯罪、治安状况和

人口统计等多个数据源结合历史犯罪记录,创建了一张犯罪高发地区热点图

以帮助警方找到最易受到不法分子侵扰的片区。

当然,公共安全部门的政务数据资源远不止犯罪数据一种,以我国为例,

根据公安部官方网站所罗列的常规性工作,其拥有的政务数据大致有:涉及

人口管理的公民身份证数据,涉及治安管理的 110 报警数据、犯罪数据(含刑

http://www.techamericafoundation.org/content/wp-content/uploads/2013/02/SAP-Public-Sector

-Big-Data-Report_FINAL-2.pdf.

② http://www.ctocio.com/ccnews/10940.html.

Page 96: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

96

事、经济犯罪侦查和监狱或看守所罪犯数据)和消防数据,涉及边防管理的出

入境数据、缉私数据,涉及车辆管理的注册与运营数据等,其他还监管铁道、

民航等行业交通数据,负责监察公共信息网络。如此看来,除了预防与追踪

犯罪,公共安全领域的数据创新还能集中解决各种小的社会问题,以优化警

力、提高服务水平。例如,针对 110 数据挖掘生成报警内容频繁项集,设置

“马大哈开锁”、“堵路移车”和“出租车失物”等妨碍度较小事件的简易出

警模式,不需要安排警力,使用数据核实事件真实性后直接通知锁匠、车主

和出租车司机,过程还可以通过相关街口摄像头全程监控;又如,根据不同

路口的车流或人流状况设置交通信号红绿灯交替长短间隔等。

5.2.2 工商部门

在全球化背景下,随着大部制改革进程的加快,有人呼吁:工商行政管

理部门,这种中国独有的、计划经济时期国家为遏制市场经济发展的工具,

应当被撤销。

诚然,工商部门的行政职责存在与其他部门职能重叠的情况,表现在:

登记注册与税务部门重叠、市场监管与市政部门重叠、流通环节质量监管与

质检部门重叠、商标管理与知识产权管理部门重叠、接受传销及合同欺诈投

诉与公安部门重叠、反垄断或不正当竞争与商务管理部门重叠,等等。正源

于此,工商部门应作为中国政务数据资源率先实施开放获取的前沿阵地。

当前,工商部门的政务数据资源是有限开放的,能够得到这些数据的主

要有两类:一类是未与工商部门实行完全脱钩的消费者协会、个体劳动者协

会或行业协会,一类是依附于工商部门、将其行政职能作为自身主营业务的

各类中介代理或咨询服务公司;而真正亟须使用这些数据的政府其他诸如税

务、统计或司法等部门得不到较大规模的实时共享,甚至工商企业名录买卖

已成为“黑”色产业链中的一个链环。

将工商部门的政务数据资源作为公共领域数据实施开放获取,能以市场

公平为出发点鼓励一批中小企业进行数据创新。以企业名称预先核准和工商

年检为例,这两项目前均已被列入各级工商局的网上事项办理范围,但仅仅

是这样还不够,将已有未注销企业在数据库进行选择性过滤后实时开放,能

Page 97: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

97

让部分企业创新中介、代理或咨询模式,根据申请者所在地区、经营范围或

其他状况实行个性化推荐;将往年年检中异常数据删除隐私后开放,能鼓励

部分企业结合互联网数据,帮助工商部门实施新一年度年检前置评估,帮助

统计、审计等部门完成行业或区域经济活跃度分析。

5.2.3 税务部门

根据世界银行国际金融公司(International Finance Corporation)和普华永

道会计师事务所自 2003 年多年跟踪全球 183 个国家政府税制的研究报告①,

税制改革始终是世界各国政府的头等大事,内容主要是精简税制、减少纳税

流程、降低纳税遵从成本等,对中小企业意义重大,在全球经济低迷时期更

甚。

在我国,自 1994 年以来近 20 年的税制改革,已使自身与经济领域其他

改革步调达成基本一致,就近举例,2012 年的 6 项税改内容分别是:结构性

减税为目的的营业税改征增值税试点,抑制过度房地产投机行为为目的的房

产税开征,推进节能减排和引导合理消费为目的的消费税健全、资源税扩源,

缩减城乡基础差距为目的的城市建设维护税改革,以及深化环境保护为目的

的费改税等。其间,税收征管信息化建设,特别是重点的“金税工程”,在技

术层面为推动系列税制改革提供了有力的支撑。

当前,税务部门所拥有的政务数据资源总量超过 700TB,已建成 2 个国

家级数据中心和 71 个省(自治区、直辖市、计划单列市)级数据中心,覆盖所

有征收、管理、稽查、处罚、执行、救济等环节涉税事项。在数据层面,有

待改进大致有 3 方面:一是数据异构,这一问题是由系统或子系统繁多造成

的,常用系统就有综合征管软件、增值税防伪税控系统、出口货物“免抵退”

税系统、税务机关办公自动化系统和国库集中支付系统等多种,有的还嵌套

或划分其他子系统,以增值税防伪税控系统为例,子系统就有税务发行、企

业发行、防伪开票和认证报税等 4 个;二是数据分析弱,这一问题是因偏重

于精确量化而非实际应用造成的,传统的各种收入查询与预测、报表编制与

浏览、税源及税负分析与监控等有明显征管特色的数据分析,只是一些基于

① http://www.pwc.com/gx/en/paying-taxes/assets/pwc-paying-taxes-2013-full-report.pdf.

Page 98: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

98

原始税收数据的简单分类、汇总、展现或一般性描述,要么对源头的数据精

准性要求很高、要么对数据分析人员的业务经验要求很高,反而最为关键的

数据处理程度却不高;三是“寻求与外部第三方数据共享”的理念可操作性

不强,这些第三方有公安、工商、质检、金融、海关等,另外还有会计事务

所、税务代理机构等中介机构。

在未来,应基于数据创新来构建“纳税服务、税源管理和税务稽查”三

位一体的新税收征管体系。在方法上,应着手使用全部税务数据而非偏向性

样本抽样、使用分类技术而非传统二元分类法,以及使用相似性度量而非按

“行业+规模”设计模型。例如,在纳税服务方面,挖掘财税咨询服务热线

12366 数据,了解不同时期纳税人关注度、使用关联分析对知识库解决方案

进行优化,同时减轻现有“人工接听、知识库搜索和政策朗读”模式的一线

人员工作量;又如,在税源管理方面,从互联网数据监测经济发展趋势或产

业调整动向,找到新的税源并及时更新相关税收政策,改变现有单纯靠评估

约谈来规范或管理税源的方法;再如,在税务稽查方面,对纳税人各种行为

数据进行模式发现、异常检测,改变现有对各类重点企业频繁抽检的费时费

力办法。

5.2.4 统计部门

近几年来,作为“社会温度计”的统计部门屡遭质疑,以美国劳工统计

局(Bureau of Labor Statistics, U.S. BLS)的非农就业(non-farm payrolls)统计为

例①,在 2012 年 10 月 5 日的报告中,家庭调查(household survey)结论显示“9

月份的失业率自 8 月的 8.1%降到了 7.8%、失业减少 45.6 万”,而后一页源自

机构调查(establishment survey)统计则称“9 月新增就业 11.4 万”,两个结果

因方法而互不能印证。

在我国,将统计部门拉到幕前的是 2008 年末的“房地产数据发布之争”。

当时,作为中国房地产主管部门的住房和城乡建设部认为,国家统计局的《统

计公报》与国家发展和改革委员会的“70 个大中城市房地产价格走势报告”

所使用的“抽样加权”统计方式不能真实反映楼市状况,应重启 2004 年试点

① http://www.bls.gov/news.release/archives/empsit_10052012.pdf.

Page 99: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

99

的“房地产预警预报系统”以强化决策依据。然而,这套需要与地方房地产

销售系统实时联网的系统,却直接导致了“楼市数据满天飞”,甚至连房地产

中介也在参与发布房地产数据。2011 年 9 月,国家统计局请求国务院办公厅

以转发通知的形式①指定其为此类数据的权威发布机构,重又收回了发布权。

被质疑、被争权都在揭示统计部门亟待改进统计方法了。在过去小数据

时期,以收集、处理、分析、解释“最少”数据以获得“最多”信息的捷径

方法,应被现今大数据时代基于“全数据模式,样本=总体”[1]的数据挖掘

技术替代或补充。以统计消费者物价指数(consumer price index)为例,美国劳

工统计局一贯采用的方法是电话、邮件、传真或上门的调查问卷,每年收集

近 8 万种各类商品价格大约需要花费 2.5 亿美元,并且在结果公布时数据是

滞后的;而麻省理工斯隆管理学院罗伯托·里哥本(Oberto Rigobon)和阿尔贝

托·卡瓦略(Alberto Cavell)的“十亿价格”(billion prices)项目②却能实时、高

频收集来自全球数以百万计的在线商品价格,即时计算通胀指数、确定资产

价格或加价幅度等,此项目曾在 2008 年 9 月先于官方数据 3 个月发现美国国

内的通胀紧缩趋势。

另外,统计部门还肩负着为政府各种新政提供数据保障的责任。被称为

“国五条”的国务院房地产市场调控措施出台后,新的楼市政策对平抑房价

的效果还有待检验,却已引发了中国式离婚潮;在高速公路节假日免费通行

政策的实施中,民众受益程度还有待观测,却导致出行的大规模拥堵。上述

所列种种都说明:新政出台前,除了采取必要的听证外,还应要有统计部门

的官方数据作为评估依据。

5.2.5 环保部门

2013 年 5 月,以动态发布 IT 资讯著称的 ITworld 报道称③,美国宇航局

(National Aeronautics and Space Administration, U.S. NASA)和美国地质勘探局

① 即:国办发[2011]42 号文,《国务院办公厅转发统计局关于加强和完善服务业统计工作

意见的通知》。

② http://bpp.mit.edu.

http://www.itworld.com/internet/355874/new-google-timelapse-project-shows-how-earth-has-c

hanged-over-28-years.

Page 100: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

100

(United States Geological Survey, USGS)已委托 Google 将自 1967 年以来使用

卫星拍摄的大约 200 多万张、超过 909TB 的图像进行数据筛选,将其中能展

现自1984年以来28年间地球各处地貌细致变化的延时(timelapse)拍摄成视频

放置在 Google Earth Engine 上,这些地貌变化包括:拉斯维加斯的城市化、

迪拜的填海造地、亚马逊的森林砍伐和哥伦比亚冰川退缩等,旨在帮助研究

地质变迁、自然灾害和人类活动等,以促进环境保护。

近百年来,由陆地到近海和远洋、从地表向地球深层和外太空,人类生

产和社会活动范围的不断扩大,引发了全球性生态失衡,世界各国政府均不

同程度地面临着不可再生资源的过分开采、污染源扩大和生态系统退化等问

题。为了应对这些问题,1973 年 1 月,联合国大会(United Nations General

Assembly, UNGA)专门成立了联合国环境规划署(United Nations Environment

Programme, UNEP)来统筹全世界环保工作,如审查世界环境状况、促进环境

领域内的国际合作等。与此同时,各国政府也相继设立了专门的环保部门,

美国有国家环境保护局(Environmental Protection Agency, U.S. EPA)、英国有

环境署(Environment Agency, U.K. EA),我国则在 2008 年 3 月将国家环境保

护总局升格为国务院组成部门的中华人民共和国环境保护部。

由于传统数据分析方法一般只能处理相同类型属性的数据集,长期以来,

虽然环保部门一直在与数据打交道,但基本上进行的是大气、地表水和辐射

状况等数据监测与收集,数据分析相对落后。应当看到,无论是臭氧层破坏、

大气及酸雨污染或气候变化,还是森林破坏、土地荒漠化、水域与海洋污染

或生物多样性减少,导致不同环境问题的污染数据集是有重叠的,将所有复

杂数据对象罗列在一起,找到关联关系,以数据联系鉴别数据真伪、对各种

污染链追本溯源,才能适时采取合理的疏堵手段。

5.2.6 质检部门

当今,中国制造的总量扩张和高速增长使“中国世界工厂”论[56]已被普

遍接受;随之而来的,部分发达国家的政客以质量为突破口“妖魔化”中国

产品,进而激化贸易摩擦。其中较严重的有 2007 年美国媒体从宠物食品到牙

膏有毒、从幼儿玩具铅超标到汽车轮胎不合格等的连续夸大事件。面对此类

Page 101: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

101

危机,国家质量监督检验检疫总局会应对式地采取如下措施:一是提供涉及

产品的抽检合格率,二是公布相对国若干产品的抽检不合格率。措施一,用

来正面辩驳;措施二,则用来提醒国人莫迷信他国货。然而,这些措施的数

据举证仅靠抽检合格或不合格率等几项指标,实效滞后、技术含量不足。

大数据时代,质检部门应在保持原则性的前提下适时而变,或能向公众

提供一定的商品状况事前警示。例如,食品安全问题涉及生产环节监管和消

费环节提醒等两个方面,第一方面即“经由原料加工、物流配送等生产环节

安全”,目前国家出台的商品条码制度已能支持食品从养殖、生产时的原材料

环节到销售时的消费环节的记录,质检部门可着手使用数据技术研究如何实

时分析和使用这些数据;第二方面即“让人吃得安全”,质检部门应结合饮食

禁忌、在不同时节向各种体质的人进行安全警示,这有 3 项好处:首先,能

减少医疗部门的压力,如在肠道疾病易发季节减少食物中毒;其次,能帮助

零售渠道获得更高的营业额,如 IBM 用挖掘到的“消费者在下雨天更愿意吃

甜食,在晴天则更愿意吃有嚼劲或脆的食物”这一规则,帮助奥地利萨赫蛋

糕(sachertorte)业绩提升了两成;另外,还能为未来食品生产安排提供决策支

持,如匹配上年度不同地区某种食品消费量、制定本年度产能计划。

5.3 互联网数据服务

在所有领域数据的创新中,毋庸置疑,互联网数据创新是很小的。然而,

正是这些可能仅仅是稍加改进用户体验的微小创新,能造就最大的收益神话,

Google 就是一个很好的例子。

5.3.1 开源协作

1991 年 10 月 5 日,林纳斯·托瓦兹(Linus Torvalds)发布了一款使用了由

查理·斯托曼(Richard Stallman)在 1983 年发起的 GNU(GNU’s not Unix)计划

提供组件和工具构成的、开放源代码(open source)的操作系统 Linux。自此,

秉承“有利同享、有活同干”理念的开源协作应运而生,总部位于美国北卡

罗来纳州的红帽(Red Hat)公司率先开创了这一先例——“即使不是红帽员工,

只要有贡献就能得到回报”。开源开发的一般模式是:通过网络交流、分工与

Page 102: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

102

协作,只做各自有兴趣的工作,自由分享成果。

应当看到,开源协作正是数据科技的根本与核心之所在。

首先,核心技术数据挖掘从一开始就是面向应用的,是针对各种数据资

源的不同算法(如 C4.5, K-means, SVM, Apriori, EM, pagerank, Adaboost, KNN,

Naïve Bayes, Cart 等)的设计及其改进,请注意:版权法或著作权法的立法宗

旨是思想/表达二分法(idea-expression dichotomy),即不保护思想而保护表

达,算法属于思想,软件则具有产品性、是表达,这也就解释了为何金山的

WPS 和微软的 OFFICE 能做到相似而互不侵权。

其次,大多数软件形态的大数据工具(如 HDFS, Hadoop MapReduce,

HBase, Cassandra, Hive, Pig, Chukwa, Ambari, Zookeeper, Sqoop, Oozie,

Mahout, HCatalog 等①)都持有 Apache 许可证,这种许可证是由一个专门支持

开源开发的非盈利性组织——Apache 软件基金会所颁发的,此组织成立于

1999 年 7 月。

5.3.2 隐私服务

2011 年 9 月,独立调研机构 Forrester 发布了一份关于个人身份管理

(personal identity management)的报告称②,美国市场第三方个人隐私数据交易

总额已超过 20 亿美元。分析师法蒂玛·克哈提罗(Fatemeh Khatibloo)在解释

这份报告时进一步指出,“消费者正在通过各种渠道和媒体留下指数级增长的

数字‘足迹’,人们对数据隐私权担忧情绪日益高涨,因为他们清楚地知道一

个事实,那就是有人会利用其获益。”

无论是英美法系或是大陆法系,隐私权从财产权中分离,都是侵权法学

的演进方向。在著名侵权法学百年论文精粹《哈佛法律评论:侵权法学卷》

的开篇“论隐私权”(The Right to Privacy)中,塞缪尔·沃伦(Samuel Warren)

和路易斯·布兰代斯(Louis Brandeis)[57]将隐私权界定为“生活的权利”(right

to life)和“不受干扰的权利”(right to be let alone),这意味着对于每个个体的

① http://www.javacodegeeks.com/2013/04/what-is-big-data-theory-to-implementation.html.

http://blog.personal.com/wp-content/uploads/2011/10/Forrester-Research-personal_identity_ma

nagement.pdf.

Page 103: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

103

自由在于其个人意愿,即表现为既可以选择拥有也可以选择放弃。因而,消

费者对由其隐私数据所制作的数据产品应具有更多的控制权,至少应该让消

费者拥有共享决定权和使用知情权。

由此,向某些愿意为数据隐私权“买单”的消费者提供这些相应的隐私

服务,是未来发展的方向,有保管和删除两种。

1.隐私数据保管

隐私数据保管源于执法机构“预防犯罪”的理念,特别在“9•11”事件

以后,世界各国的公共安全部门均意识到解读或关联全球互联网中的隐私数

据是侦察到恐怖活动的关键。因而,为便于未来翻查,一些政府制定了一系

列信息保留法规或数据透明度增加政策,来强制企业长期保存客户隐私数据

并定期报告。

由此,一些企业针对保管中的隐私数据展开了数据创新,OpenID①就是

其中一种,即:使用一个 URL 数字身份识别标识,以“一处注册,到处通行”

的特点,解决传统的“一个网站一套帐号密码”所带来的用户记忆负担问题。

JanRain 是 OpenID 的先驱,目前国内的支付宝、腾讯和人人网(renren.com)

也有该业务。

2.隐私数据删除

迈尔-舍恩伯格“为隐私数据设定一个存储期限”的对策[58],使他那本《删

除》(Delete: The Virtue of Forgetting in the Digital Age)屡获殊荣②,尽管数据存

在“时间悖论”[5],但其“让遗忘回归常态”的理念仍受到学术界推崇。

隐私数据删除同样能获利。2011 年 7 月,一家名为 Reputation.com 的在

线隐私和声誉管理创业公司获得了第二轮 2,400 万美元的融资③,加上之前的

融资总额已达到了 6,700 万美元。该公司提供了一种新的名为“数据保险库”

(data vault)的个人身份管理解决方案④,其并非是简单地使用删帖等方式,而

是通过对搜索算法的深刻认识和利用技巧,将正面链接的搜索排名大幅提前、

① http://baike.baidu.com/view/832917.htm.

② 《删除》一书获得:美国政治科学协会 2010 年度“马歇尔·麦克卢汉奖”(Marshall

McLuhan Award),美国媒介环境学会的 2010 年“唐·普赖斯奖”(Don Price Award)。

③ http://www.36kr.com/p/34353.html.

④ http://www.cctime.com/html/2012-12-11/201212111223433721.htm.

Page 104: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

104

将负面的链接信息挤出人们的搜索视线之外,甚至是深埋起来。

Reputation.com 的创始人兼首席执行官迈克尔·佛迪克(Michael Fertik)形容这

是“‘卖衣服’给在互联网上‘裸奔’的人”,他透露下一步计划是向有意控

制自身隐私的消费者出售“数据解毒剂”,以消除“网络划界”(weblining)所

造成的用户“身份”被秘密评分的负面影响。目前,TransUnion 信用公司旗

下的个人消费者部门 TransUnion Interactive 也已开始向其客户提供类似的服

务。另外还有一家名为 Snapchat 的公司,提供独特的分享数据“阅后即焚”

应用,已被估值 8 亿美元并于 2013 年 6 月完成了 6,000 万美元的融资,其连

续拒绝了 Google, Facebook 和腾讯的收购邀约。

5.3.3 人脉搜索

在较早期的社会科学各学科,特别是组织行为学和管理学,经常使用人

际间的关系结构、位置和强度,甚至是信任或意愿的等级[59],来衡量某一组

织或团体的社会资本(social capital),以帮助其更有效地积累、管理和运用这

一重要资本形式,如分析内部社会资本克服内耗、分析外部社会资本捕捉机

遇等,著名的有斯坦福大学马克·格拉诺维特(Mark Granovetter)的人际关系

强弱连接(strong ties, or weak ties)理论,然而实证数据是一大瓶颈。

网络社交的发展,为这种源自人际关系的社会资本提供大量的人脉资源。

以 Facebook为例,网络监控公司 Pingdom在 2013年 2月发布的一份研究称①:

在过去的 5 年中,Facebook 注册用户数已从 2007 年的 5,800 万增长到 10 亿,

成功替代美国成为世界上第三大人口“国”,若以现平均年增长率 77%按照

逐年递减 10%计算,其将在 2016 年成为地球上人口最多的“国家”;若按逐

年递减 18%计算,这一目标会在 2018 年得以实现。

在社交数据中进行人脉搜索存在着巨大的商机。例如,改进现有人才招

聘所存在的招聘与求职信息不对称状况,为企业或个人提供与之发展相协调

的个性化服务;又如,在诸如家务指导、课程补习和户外向导等“人对人”

服务中,自动匹配需要(how-to)和被需要(know-how)的人。需要指出的是,人

脉搜索并非是“人肉搜索”的“招安”,而是一款新的数据产品,具体有下述

① http://royal.pingdom.com/2013/02/05/facebook-2016.

Page 105: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

105

3 方面特征。

1.发现有价值关系

具体表现在:以彼此相似背景、共同爱好或重叠好友等早期筛选合适的

边缘关系;在建立联系后以足够的数据来及时确定这段关系的价值,避免在

毫无价值的关系上浪费时间或者漏掉可能应长期发展的关系;等等。

2.突破维持极限

在已有研究中,被确认的人类关系维持极限分别是:由 1992 年罗宾•邓

巴(Robin Dunbar)提出的弱连接“150 法则”(rule of 150),由 2009 年尼古拉

斯•克里斯塔基斯(Nicholas Christakis)提出的强连接“三度”影响力。这方面

的突破表现在:一是维持有价值的弱连接,二是增加有价值的强连接。

3.拓展人际脉络

目前研究社交网络人际关系的挖掘方法,一般将人际脉络抽象成“点”

和“线”,使用近代数学先驱莱昂哈德·欧拉(Leonhard Euler)提出的图论方法。

由此,拓展人际脉络已演变为依据时间、地域或网络延伸方向等多角度构建

社交互惠环,通过描绘、测量和计算各节点之间关系,来展现用户与目标用

户之间的有效路径。

5.4 金融数据服务

不同于其他领域,金融领域数据资源是最早被贴上价格标签、用于商业

用途的,同时预测是金融领域数据分析的一种重要形式。

在过去,数学在金融领域大展拳脚,这种精确计算的研究热点包括:风

险值计量、高频或超高频数据分析和衍生品定价等,一般来说都是基于模型

讨论及其应用的。在未来,金融数据服务创新解决的是数据挖掘技术应用,

而非传统基于假设-检验、依赖模型选择与拟合的方法,例如,研究各类证

券(指多种经济权益凭证,如资本证券、货币证券和商品证券等)不同时期涨

跌状况,帮助投资者快速准确回答诸如“如何进行各种金融产品的趋势、形

态、价量或者波动等方面分析”、“如何排除个股间行业、地域或其它基本面,

知道哪些股票会涨或者那些会跌”和“如何快速止损、快速盈利”等问题,

以量化价值投资依据。

Page 106: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

106

5.4.1 描述关系

现代金融市场的空前繁荣,使得金融学这门对价值规律及其判断的学科

有着广泛的研究内容,其中宏观与微观各个层面的金融关系(financial relation)

也是相当有研究意义的。

在涉及金融关系的研究中,著名金融学家、套利定价理论(arbitrage pricing

theory)创始人斯蒂芬·罗斯(Stephen Ross)推崇使用直觉(intuition)判断[60],这

种直觉包括经验、回忆和猜测,比如金融与新闻的关系、金融发展与经济增

长的关系等,他认为“理论只是更多地在试图扮演填平直觉与数据间沟壑的

服务者”①,甚至他还有些偏激地批评基于假设的检验和实证极大地冲淡了

这种金融直觉。无独有偶,1990 年诺贝尔经济学奖获得者默顿·米勒(Mertor

Miller)和有金融经济学领域思想家之称的尤金·法玛(Eugene Fama)同样对金

融直觉的重要性颇为肯定。诚然,精密而复杂的数学工具易使人迷失于各种

理论与模型,对金融直觉的转化和印证帮助效果有限,有时还有误导作用。

所以,金融关系研究需要更简单或更直观的新工具。

数据挖掘工具一般使用的是面向对象方法(object-oriented method),这是

一种替代了结构化方法的计算机领域主流方法。面向对象方法是一种建立在

“对象”概念基础上的方法学,使用对象之间关系来理解对象所直接对应客

观实体之间关系,以认识、理解、刻画客观世界。因而,这种工具是在对象

空间上进行的基于对象关系分析的数据管理、处理、挖掘、分析和展现,而

这些诸如依赖、关联、聚合、组合或继承等对象之间关系,所表述的均是相

关关系,而非因果关系。

相关关系和因果关系是说明客观实体之间联系的两种易被混淆的形式。

相关关系是用来量化两个对象之间的数理关系,比如正相关、负相关和不相

关,又如强相关与弱相关,等等;而因果关系则是在表述相关关系的基础上,

额外描述两个对象之间的充分或必要关系,如一因一果、一因多果、一果多

因和多因多果等。由于探索因果关系是源于相关关系的,面对客观世界种种

① 原文:The intuition and the theory of finance are coconspirators. The theory is less a formal

mathematical structure driven by its own imperatives – although that is always a danger – as it

is a handmaiden that attempts to bridge the gap between the intuitions and the data.

Page 107: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

107

不确定性,有一种人性弱点,那就是人们习惯于寻找原因并将不确定性转化

为确定性。这种心理误区在现实中经常被利用,最常见的骗术就是利用一种

真实的相关关系来支持一个未经证实的因果关系。

由此,基于“直觉”和假设因果关系的实证分析,将被基于海量数据的

数据挖掘所替代。这种新工具或分析新思路,不仅能提供类似“直觉”的相

关关系洞察、找到一些“以前不曾注意到的联系”[1],还能对这种相关关系

进行具体描述和解释,以帮助理解微观乃至宏观层面的社会动态。

5.4.2 模拟行为

自 20 世纪 80 年代以来,建立在资本资产定价模型(capital asset pricing

model)和有效市场假说(efficient markets hypothesis)两大基石上的现代金融理

论,不断因市场的种种异常现象而深受质疑,被批评为“与投资者在证券市

场上的实际投资决策行为不相符合”。受行为主义心理学 (behavioristic

psychology)这一西方现代心理学主要流派的影响,丹尼尔·卡纳曼(Daniel

Kahneman)和阿莫斯·特沃斯基(Amos Tversky)在 1979 年共同提出了行为金

融研究的代表学说——“期望理论”。这是第一个以人的角度实际决策心理和

真实行为模式出发、能较为系统地应对与有效解释市场异常的理论。当前,

从国内外金融领域的投资实践来看,行为金融理论及其投资策略已成为金融

研究中很吸引人的一个领域,为我们理解金融市场提供了一个新的视角,即

从“应该怎样”转为“实际是怎样”。

与境外证券市场以机构投资者为主不同,中国的证券市场以散户为主。

因而,通常对机构投资者采取“同时买入或卖出警示”等监控方法,均不适

用于监督国内庄家的投机行为。在国内,稍微有点证券投资经验的人都知道,

揣摩和发现庄家的操作手法,即模拟庄家行为,能增加自身在股票、期货等

这些财富再分配场所的角逐筹码。一般来说,庄家行为有 4 部分组成:建仓、

拉高、整理和出货。现有的行为分析方法只能对庄家进行简单分类,比如“有

扎实理论基础、经典操盘技巧”的学院派和“快速吸筹、强拉硬抬作风”的

海盗派,又如以潜伏时间长短区分短线、中线或长线庄家,再如根据走势振

幅和幅度区分强庄和弱庄,另外还区分顺势庄、逆市庄,或者获利庄、被套

Page 108: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

108

庄等,因此根本不能准确知道庄家布局的时间点、控盘大小和操作风格等。

然而,庄家千变万化的手段已在海量金融领域数据资源中留下了蛛丝马迹,

不同时期相异证券的相似走势,能昭示同一庄家由其心理决定的行为模式。

以股票为例,吸筹阶段散布利空传闻,牺牲少量筹码打压形态极佳的股票股

价,让市场不普遍看好;洗盘震仓阶段使用操盘技巧,让股价大幅震荡利用

技术图形制造假象;拉抬阶段散布利好传闻,以高风险高收益维持市场人气,

吸引市场跟风;等等。

因而,数据创新将在未来自动识别动态系统重现特征[6],代替行为金融

领域传统基于人工判断的如趋势分析、形态分析、强弱分析和波动分析等方

法,排除干扰、挖掘到相似的频繁模式,并将其对应于投资者具体的操盘行

为、实行模拟,以揭示市场行为的关键。

5.4.3 预测价格

在金融领域,无论是即期交易还是场外交易,均依赖于标的资产

(underlying asset)价值变动,而这种价值变动均是依靠价格预测进行考量的。

一般来说,变动趋势预测比精确价格预测更有意义,只有得到趋势预测结果,

才能从趋势的轨迹点中使用诸如拟合等其他方法得到精确预测值。

在过去的预测研究中,有基于线性思维从期望和方差两个角度利用时间

序列记忆性建模的,有基于分形混沌理论从随机与确定、渐变与突变、无序

与有序等入手趋势分析的,有以代谢性、趋利性、适应性、可塑性、应激性、

变异性和节律性等价格波动生命运动特性演化跟踪的,甚至还有使用几何学、

物理学和天文学研究平行通道、趋势线和角度线等价格运动规律的,不一而

足。然而,这些研究的前提是假设,有科技“预言帝”之称的凯文·凯利(Kevin

Kelly)在其新书《技术元素》(The Technium)中揭示了此类预测失准的谜底,

“超越现实的假设总是很难,这就是为什么预测经常会错”。

数据挖掘支持在无先验知识的条件下基于数据特征使用演变分析

(evolution analysis)实施预测,例如,使用超启发式算法 (hyper-heuristic

algorithm)将领域知识屏蔽在外,使用迭代或突变的方法,创建一系列随机规

则以相似度拟合方式从中选择其一,来描述某些对象局部或整体随时间变化

Page 109: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

109

的最优规律或趋势。

除了方法,数据量也是关乎预测准确与否相当关键的因素,其表现在:

一是大的数据量能获得更多知识,《孙子兵法·地形篇》有曰“知彼知己,胜

乃不殆;知天知地,胜乃可全”,其间作为制胜要素的“天”、“地”即“天候”

的阴阳、寒暑、时制和“地形”的远近、广狭、高下,源于对大数据较高层

次处理和分析而“知”,显然能超过从为检验假设而精心设计的小数据中所

“得”。二是大的数据量具有更强容错性,这里的数据容错(fault tolerant)有些

类似“碱基错不影响表现性错”的基因容错,指的是在尽可能采取少的错误

规避策略或者存在偏差等错误前提下能得到近乎正确的结果,这是由于分析

从多途径得来的大规模数据时,“不精确和不完美反而更能把握发展趋势”[1]。

5.5 医疗数据服务

医学科学直接关乎全人类生命健康,这一领域的商业价值一贯是高成长

与高回报的,医疗数据创新无疑是显性的。

当前,德国默克公司正与建立临床观测指标结果共享 LOINC 数据库①的

Regenstrief 研究院一起着手研究,以期制定个性化治疗方法;美国蓝十字与

蓝盾协会正与大数据供应商 NantHealth 合作部署 Teradata 临床分析平台,以

期建立“不间断学习中心”来提高临床护理质量;而瑞士伯尔尼大学的迈克

尔·泰利(Michael Thali)发明的虚拟尸检(virtopsy),则意味着数据实验的介入,

除了能检验死亡原因、评估医疗护理规范性和帮助医学教学外,还能为改进

医疗设备(如确认治疗气胸穿透长针标准长度)、军用装备(如改进防弹衣以抵

挡从爆炸装置弹出碎片)等提供参考。

5.5.1 缩减:医疗实践滞后距离

微软医疗媒体实验室(Microsoft Medical Media Lab)的迈克尔·吉勒姆

(Michael Gillam)博士等人研究了过去 2,500 年和过去 150 年医学发现与医疗

实践的距离后,撰文指出[26]:医疗数据大大缩减了医疗实践的滞后距离,并

① LOINC 数据库中的 LOINC 是 Logical Observation Identifiers Names and Codes 的缩写,

即观测指标标识符逻辑命名与编码数据库。

Page 110: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

110

使之在 2025 年接近即时应用(如图 5.1 所示)。

图 5.1 过去 2,500 年和过去 150 年医学发现与医疗实践距离比较图[26]

尽管医疗奇点(healthcare singularity)的具体年份是否真的是 2025 年还未

尝可知,但这一研究结论基本符合事实。以 2013 年 3 月底上海和安徽两地发

生的 H7N9 型禽流感为例,据《文汇报》消息①,5 月 1 日和 5 月 4 日分别有

两家美国生物公司 Greffex 和 Protein Sciences 宣布已成功研发出疫苗,这代

表了未来疫苗研制的方向,即:利用基因数据分析找出病毒特征,将这些特

异基因片段插入腺病毒载体生成蛋白疫苗,整个过程仅需一个月。

吉勒姆还描绘了后医疗奇点时代的场景,例如,对已证明有毒副作用的

药品被宣布撤市后,传播渠道应是即时的,患者被立即告知、医生则在处方

中改换替代药品;又如,对住院患者依据其基因数据进行复杂疾病致病基因

挖掘与差异表达基因识别,采取个性化治疗、减少医疗差错;再如,采取数

据实验,进行预防性保健等。

① http://whb.news365.com.cn/ewenhui/whb/html/2013-05/04/content_8.htm.

Page 111: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

111

这些场景并非不能实现,按照现有数据挖掘经验,以研究病患人群分布

为例,可基于病种分类实施病患的聚类划分,比对年龄、职业、生活区域环

境、饮食习惯或嗜好(如吸烟、酗酒等)各种因素的相似性,分析不同病种的

相互影响关联度(如糖尿病高危人群中高血压的患病率研究等),以实现病患

群的进一步细分,进而相应提供个性化的健康服务。

5.5.2 提速:新药上市节奏

根据美国食品药品监督管理局(Food and Drug Administration, U.S. FDA)

的监管标准,药品被分为新药、非专利药和非处方药等 3 类。由于医药历来

关系国计民生,世界各国普遍将“新药”创制视作国家自主创新能力的一种

重要表现形式。全球重要经济体国家或地区及组织对新药定义略有差异[61],

总的来说,新药一般以国内审查、注册、生产或销售作为界定线,要具有新

化学物质、新复方制剂、新剂型和新给药途径等,甚至有的国家(如美国)还

将新适应症、新规格、新生产场地和已上市药物的新盐或新酸根或新酯等都

纳入定义。

由于药品的特殊性,成份、剂量等任意的稍加变动,都涉及进行安全性

和有效性的认证和评估,因而新药的上市周期一般都很长,通常从实验室研

发到核准上市需要 9-20 年时间,如图 5.2 所示。

Page 112: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

112

实验室研究

2-3年

临床试验

2-7年

一、二、三期临床试验

新药监测期

3-5年

新药生产上市

第四期临床试验

临床前动物试验

2-5年

药理药效研究

毒理与安全性评价试验

申请新药生产

申请人体试验

图 5.2 新药研发与核准上市流程图①

新药的试药风险无疑是很大的②。世界医学会(World Medical Association,

WMA)和国际医学科学组织理事会(Council for International Organizations of

Medical Sciences, CIOMS)分别在《赫尔辛基宣言》和《涉及人的生物医学研

究国际伦理准则》中设置条款试图保护试药者,比如必须遵循“明白无误地

告知当事人药物试验可能出现的危害并征得其同意”等原则。

早在 2004 年,关键途径研究所(Critical Path Institute)就关注到试验数据

共享能加快新药进入临床试验的速度,2006 年 3 月其发起了一个由美国食品

药品监督管理局担当顾问的协作协议③,将葛兰素史克、辉瑞、诺华、施贵

宝、强生、默克、先灵葆雅和罗氏等 8 家制药企业联合起来组成预测安全性

检测协会(Predictive Safety Testing Consortium, PSTC),共享临床前动物实验

数据。

在未来,数据创新将会大大缩短新药的人体临床试验时间,进而提速新

药上市节奏。例如,基于数据实验优化临床试验设计,由于新药的临床试验

属于实证型检验,即评估病人是否有改善或有无不良反应等有限问题,而非

① http://ishare.iask.sina.com.cn/f/15284037.html. ② http://view.163.com/special/reviews/drugtext0503.html. ③ http://www.ebiotrade.com/newsf/2006-3/200632395400.htm.

Page 113: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

113

探讨药品的作用机制,可先通过病患的基因测序、生物标记或电子病历等数

据筛选有效对照组、选择配对或分块方法,再用类似药品的临床试验数据生

成历史参照组、进行数据实验,基于这些先验知识优化临床试验设计,以控

制临床试验的人数和资金;又如,连接到其他医疗数据源进行关联分析,如

某个临床试药组病患在后续一定时期内的用药问诊状况等所反馈的新药代

谢、毒理或不良反应等状况。

5.5.3 跟踪:慢性病演化规律

慢性病①的全称是慢性非传染性疾病,现已成为威胁人类健康的重大公

共卫生问题,这是对一类起病隐匿、病程长且病情迁延不愈,缺乏确切的传

染源证据,病因复杂,有些尚未完全被确认的疾病的概括性总称,涉及人体

消化、免疫、呼吸、神经、循环、内分泌、泌尿生殖和骨骼等八大系统。

2012 年,被《福布斯》(Fores)网络版评为当年度“美国十大创意孵化器

之首”的 Y Combinator 投资了一家旨在为慢性病患者服务的 HealthyLabs 创

业公司②,这是由加州大学伯克利分校的计算机系学生肖恩·阿伦斯(Sean

Ahrens)和威尔·科尔(Will Cole)创建的一个名为 Crohnology 的社交网站,专

为克罗恩病和溃疡性结肠炎患者收集、分享或比较病症和疗法,为杜绝医疗

广告,用户必须证明自己确实受如上病症所困才能加入,为保护隐私站内任

何数据都不会被搜索引擎检索,HealthyLabs 计划未来能成为制药公司进行新

药物临床试验的中间商,并实现盈利。

实现慢性病演化规律跟踪,对于预防与控制慢性病的发生、发展,减少

并发症,提高病人的生活质量尤为重要,相当有商业价值。在这方面的数据

创新包括但不限于:慢性病医疗路径挖掘、慢性病演变分析、慢性病联合用

药分析、特异慢性病挖掘、慢性病间的联系、慢性病就医状况分析和慢性病

医保基金使用情况挖掘等。

1.慢性病医疗路径挖掘

通过对慢性病历史诊断记录数据进行挖掘,获取其医疗路径即随时间变

① http://baike.baidu.cn/view/266364.htm. ② http://tech2ipo.com/55176.

Page 114: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

114

化规律,对初诊、检查、教育、饮食、用药、治疗和护理等设计更为科学的

标准化治疗程序,以减少医生在诊治过程中的盲目性、随意性和不必要重复,

进而节约有限医疗资源、提高医疗质量和控制医疗费用等。

2.慢性病演变分析

有医学临床实践经验表明,消化系统是最早发生慢性病的系统,然后逐

渐影响全身。从不同病程数据挖掘慢性病发生和演变规律,研究消化、免疫、

呼吸、神经、循环、内分泌、泌尿生殖和骨骼等八大系统慢性病侵入状况,

为慢性病防治提供服务。

3.慢性病联合用药分析

对用药数据进行挖掘,包括:使用关联分析找到具有交互作用的药物关

系、用药变化与治疗手法关系,使用异常分析发现用药的配伍禁忌、医生处

方异常等,以帮助医疗机构确定用药方案。

4.特异慢性病挖掘

从电子病历数据挖掘到仅有少量人群出现的特异病症,并实施特殊治疗

指导;或者找到同样药物疗程而出现特异疗效的病患,以优化原有治疗方案。

这部分研究内容也可以用于慢性病疗效分析。

5.慢性病间的联系

采用关联分析,了解慢性病的并发症,以及不同慢性病之间的相互影响

因素,以实施慢性病预警。

6.慢性病医保基金使用分析

通过医保基金的使用数据挖掘,分析挖掘慢性病治疗状况,同时了解医

生处方习惯、实施评估,为医保基金的合理使用提供数据支持。

7.慢性病人就医状况分析

结合现有医疗机构分布数据、促成各级联动,挖掘慢性病区域分布状况,

结合环境因素、生活习惯,实施慢性病患者全程管理,帮助其获得持续、连

贯治疗或康复与预防指导。

5.5.4 推送:健康资讯

根据普华永道健康研究院 2011 年的一份名为《新淘金》(The New Gold

Page 115: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

115

Rush)的调研报告①,消费者很愿意把大量的钱花在与健康有关的服务或产品

上,同时很乐意从新媒体(如 iVillage 或 WebMD 等)购买健康资讯。另外,介

于 18 至 24 岁之间、追求前沿技术的新一代消费者对移动医疗应用和健康知

识游戏感兴趣的分别是 65 岁消费群体的 2 倍和 3 倍。

作为一种新的推送服务内容,健康资讯很有商业前景。目前涉及此类内

容的大致有两种:一是由气象部门播报的气象指数,这主要是从气象要素引

起人体的生理变化角度,如对人的内分泌、血液理化状态、大脑皮层活动、

心血管、电解质平衡、肝脾胰脏或生殖器官等生理功能的影响,或与免疫学

的关系等,在天气预报中附带播报的诸如“感冒指数”、“高血压指数”、“心

脏病指数”、“脑血管病指数”、“支气管哮喘指数”等,其他的还有与花粉传

播、紫外线强度等有关的关节炎、传染病、眼病、高山病、牙病、糖尿病、

胃溃疡、老年病指数等。二是由第三方公司提供的健康信息服务,国内有友

乐活(yoloho.com)的“健康谣言终结者、健康原理挖掘机、健康七嘴八舌、健

康克格勃”这些类似果壳网(guokr.com)诙谐风格的日常健康知识,或者“按

哪儿”、“吃啥”等涉及中医养生和饮食健康的移动应用。当然,这些健康资

讯推送还不能算作真正意义上的数据创新。

未来属于数据创新的健康资讯推送,应是由医疗部门或涉及专业健康服

务机构基于医疗数据资源挖掘结果的,例如,从挖掘区域医疗的个人健康档

案、用户的医疗问答、诊疗记录和健康偏好等数据入手,以维护生理、心理

健康角度出发,实现个性化定制,帮助用户降低健康维护和疾病预防的成本。

5.5.5 方法:大脑和中医研究

合乎规律性和高度保真性是科学方法②的两大鲜明特征,故而其必须是

建立在可观察(observable)、可经验(empirical)和可量度(measurable)证据基础

上的。因此,传统的思辨、规范或实证等研究方法,无法证明有“近千亿神

经元、数万亿连结”的复杂人脑和以“经脉流注”为依据的神秘中医这两者

的科学性。

① http://www.brianswilliams.com/Assets/pdfs/2011/HRI_Gold_Rush.pdf. ② http://baike.baidu.cn/view/479156.htm.

Page 116: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

116

2013 年 1 月,欧盟委员会(European Commission)宣布将“未来新兴技术”

(Future and Emerging Technologies, FET)①旗舰项目授予瑞士洛桑联邦理工学

院以色列籍神经系统学家亨利·马克拉姆(Henry Markram)所领导的人类脑模

型——“蓝脑计划”(Blue Brain Project),并为其提供为期 10 年、总额达 10

亿欧元的科研资助。这是自 2009 年历经近 4 年时间、从收到的 23 个提案中

最终筛选出的两个项目之一,马克拉姆将负责协调包括法国巴斯德研究所

(Institut Pasteur)、美国 IBM 和德国 SAP 在内的学术界和工业界的 87 个机构

或组织开展脑模拟,将尝试包括模拟脑细胞活动、大脑各部位化学特性和相

互的连接性等在内的所有问题。之后,2013 年 4 月,美国总统奥巴马在白宫

宣布②,将从 2014 财年的政府预算中拨出 1 亿美元,用于进行一项旨在揭开

人类大脑未解之谜的“利用先进创新神经技术研究脑部计划”(Brain Activity

Map),国家卫生研究院、国防部高级研究计划局和国家科学基金也将参与研

究。

需要指出的是,这些项目的研究方法都是基于大脑数据整合、分析和验

证的[5],具体是:首先,借助脑功能成像技术(如 fMRI, OT, ERP/EEG 或 MEG

等设备)即时或定时获取大脑数据;其次,进行纵向或横向整合,纵向整合即

是同一个问题的不同层次数据的整合,横向整合即同一层次、不同研究数据

或成果的整合;然后,设计新的挖掘算法对大脑数据进行分析,找出人类在

问题求解、推理、决策和学习等认知活动中大脑的活动规律;最后,验证是

否已获得一个正确的脑活动知识。

同样在中医领域,通过针体受力监测仪来记录针灸过程中的捻转力和提

插力,从生物力学的角度,以数据分析循经特性来研究经络;尝试使用关联

分析,在人体器官的基因表达谱数据中找到“五官对五脏(即鼻为肺之官、目

为肝之官、口唇为脾之官、舌为心之官、耳为肾之官)”等解说的证据;或者

将中药材药性、产地和制作方法等数据与中药处方数据连接起来,设计新的

异常检测或特异挖掘算法找到“十八反”等配伍禁忌,都是比较有价值的研

究方法。

① http://www.stdaily.com/stdaily/content/2013-01/30/content_568242.htm. ② http://www.chinadaily.com.cn/hqzx/2013-04/04/content_16376128.htm.

Page 117: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

117

由此,数据创新无疑将在这些传统研究方法无用武之“地”,大展拳脚。

5.6 交通数据服务

交通领域的数据创新同样是显性的,与医疗领域在商业价值上的显性所

不同,其在很大程度上能体现政府部门的政绩。这是因为:交通一般会涉及

政治、经济、社会、人文等领域重大事件,直接关系到民生需求,是政府为

满足公民社会发展活动需要所提供的社会公共服务的一部分。

5.6.1 居民出行特征

了解居民出行特征,能为政府制定交通发展策略提供依据。从前一般采

用社会调查方式,最早的居民出行调查在 1944 年,第二次世界大战后期,美

国政府认识到国防对公路建设的依赖性,颁布了《联邦资助公路法案》,由于

可用于道路设施规划的居民出行信息缺乏,提出了一种名为“居民起讫点”

(home-interview origin-destination)的调查方法。此类社会调查需要对“居民出

行”进行定义,如出行目的、方式、时间、距离、路线、起讫点等,甚至严

格规定“一次出行”为“单程步行时间 5 分钟以上,或者使用交通工具超过

400 米”,目的是将对城市干道交通产生影响的内街、大院或校园出行排除在

统计之外。例如①,上海分别于 1981 年、1986 年、1995 年、2004 年和 2009

年进行过五次这种居民出行情况调查,从出行强度、结构和分布等方面,揭

示了改革开放 30 年来用地拓展、机动化发展等原因所导致的居民出行的行为

变化。

基于交通领域数据资源,结合人口、车辆、土地、环境、气象和交通管

理等多源跨库海量数据,多角度设计快速挖掘算法,能为使用非调查问卷方

式分析居民出行特征提供帮助。例如,使用分类或聚类,以人口数据的背景、

偏好等特征对人群进行细分,如以上下班、就学等通勤出行目的或者以娱乐、

购物等非通勤目的分类;又如,使用关联规则分析车辆数据的保有量、流量,

如哪些时间段何种车型车辆的出行方向、时间、距离、频率、分布或者起讫

① 数据来源:上海市第五次居民出行调查与交通特征研究,

http://www.chinautc.com/upload/accessory/pdf/20131291481947534.pdf。

Page 118: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

118

点等,以判断交通潮汐现象;再如,使用异常检测或特异群组算法对涉及土

地数据的道路结构或规划、涉及环境数据的交通事故或道路施工状况、涉及

气象数据的季节性风霜雨雪进行挖掘;等等。进而了解,随人口规模扩大或

经济活动加剧所导致的居民出行需求,随城市持续外扩所刺激的机动化交通

水平,以及轨道交通为核心的公共交通客运周转量结构等。当然并不止于此,

还能进行反转分析,如从居民出行特征来衡量城市土地布局优劣状况等。总

之,能从这些非精心设计的数据中挖掘到超乎预想的结果。

5.6.2 拥堵因素关联

交通拥堵所带来的民生问题有很多,从小的方面说有减低车速、增排尾

气、延误时间、诱发事故,大的方面还会造成环境污染、影响节能减排,进

而削弱城市魅力、制约区域发展。当前,不同城市或地区用以界定“交通拥

堵”的标准尚无定论,以美国为例①,芝加哥市运输部门(Chicago Department

of Transportation, CDOT)的定义是“30%以上的五分钟车道占有率”,而德克

萨斯州运输部门(Texas Department of Transportation, TxDOT)的定义是“出行

时间超过小交通流量或自由流状态,有较大延误”。尽管如此,拥堵影响已成

为除自然灾害和设施故障之外评价交通可靠度最应考虑的内容。

不管是突发性或是常规性的交通拥堵,其根本是源于交通需求和供给之

间的矛盾,一般能被联想到的因素就有很多,如图 5.3 所示。

环境:事故或施工状况

气象:季节性风雨雷暴

土地:道路结构或规则

人口:背景、偏好等特征

管理:动态实时交通控制

车辆:保有量、流量

交通需求 交通供给

用户反馈

图 5.3 可能存在的各种交通拥堵因素

只有确切了解这些可能导致交通拥堵的因素之间的关联关系,才能从源

① 来源:http://wenku.baidu.com/view/c8ef67a90029bd64783e2c4d.html。

Page 119: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

119

头上采取相应的措施来遏制其发生与发展,而不是一味追求造桥铺路、以空

间聚集换取时间节约。

以前,分析这些拥堵因素通常会去找能度量若干变量之间关系的指标,

以使用离群数来考察关联度的方法为例,既能证明高速公路拥堵与收费有关

系、也能证明与不收费有关系,换句话说,这种在相对较小的数据集上试图

根据变量间关系强弱的各种指标来解释其关联度的,只“证实”而不能“证

伪”。

应用数据挖掘工具,能在大规模交通数据集上,跨行业或领域关联人口、

车辆、土地、环境、气象和交通管理等多源跨库海量数据,找到拥堵因素关

联关系及其佐证。例如,在与基础设施建设的关系上,分析历史数据中电力、

通信、水务和城建等部门在同一路段道路施工的顺序、工期等具体妨碍情况,

以利于日后在合适季节实行统一规划,改变“今天你铺路,明天我挖沟”道

路施工随意状况;又如,在与城市管理的关系上,分析非机动车乱停放、公

交车乱停靠和机动车随意占道等具体分布证据,以便于重新调整该地域,如

合理设置公交站点、出租车扬招点、非机动车和机动车停放点等,改变“以

缴代罚、以罚代管”的低级管理方式;再如,在与居民出行的关系上,分析

哪些拥堵路口何种交通标志或信号设置不合理、排列不正确或者安装不恰当

等具体问题,在不同时间段找到实际车流、人流偏好特征,以便于重新规划,

改变一直依赖交警现场指挥的状况,节省警力。

5.6.3 短时交通预测

交通系统是由人、车、路构成复杂系统[43]。为缓解交通拥堵和环境污染

等问题而生的“智能交通”,不管是动态控制还是实时诱导,基本是以行程时

间预测为前提的。

将行程时间作为对象进行预测研究,大致有以下几个角度:一是路网角

度,从空间范围将出行起讫点和通过的匝道出入口看作“顶点”、由路段组成

的路径看作“边”,将其组合构成路网,使用图论的方法研究行程时间优化问

题;二是交通流角度,将道路上行驶中的车辆抽象成交通流,若遭遇道路形

状改变、路口信号灯控制等停顿则认为是间断流,反之在高速公路和城市快

Page 120: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

120

速路上的是非间断流,一般从线性或非线性、特殊点(如匝道出入口)等交通

流研究对行程时间的影响;三是应用角度,出行前基于遥感与地理数据规划

出行线路、基于固定点交通数据探知路网状况等预测行程时间,在途中分析

当前时间交通状况对预测行程时间的影响与关联性;四是可靠性角度,结合

路网特征、交通流量和气象状况等研究行程时间的变异性。

一般来说,诸如周、月、季或年等长期情况会有一定的周期、递差等规

律性,在技术上预测周期越长越能使用基于假设的各种模型方法,即:根据

交通现象形成机理、建立数学或物理模型,预测未来交通状况,从而间接得

到行程时间;而短期情况,如在未来一小时以内的,通常有相当强的不确定

性,在技术上应进行直接预测。因此,短期行程时间预测较长期的更受国内

外研究者青睐。

较早期的短期行程时间预测方法同样是使用模型的,主要有卡尔曼滤波

(Kalman filter)、非参数回归(nonparametric regression)、马尔科夫链(Markov

chain)和人工神经网络(artificial neural networks)等模型,这些方法一般不太能

适应随机干扰因素的影响,以马尔科夫链模型为例,其通过一步转移矩阵来

描述行程时间中延误部分的构成概率,但所需参数是在有限试验条件下得到

的,与实际情况出入很大。另外,由于交通系统的复杂性,依赖一个“完善”

的模型来拟合,几乎不可能。

因而,未来的短时交通预测研究是基于数据挖掘的,其优势是:其一,

简单有效,由于不需要理论假设、不涉及边界条件或参数设置,挖掘算法只

需要考虑数据中的联系,较模型方法更为便捷;其二,易于处理,与交通数

据有关联的多源数据集涉及人口、车辆、土地、环境、气象和交通管理等,

是异构、复杂、高维和分布式的,这种挑战传统方法是无法应对的。

5.7 交易数据服务

在商业流通领域,近年来的创新实质是将原先附加于其上、能提高其流

通价值的增值部分剥离出来,形成一个新的领域——交易服务。应当看到,

此类服务中的定价、销售和支付正在发生变革。

Page 121: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

121

5.7.1 定价变革

传统贸易的商品定价一般有选择定价目标、预测需求的价格弹性、估算

成本、分析竞争对手、选择定价方法和确定最终价格等 6 个步骤,在具体操

作上可打乱次序。其中:在选择定价目标上,会考虑消费者的所属阶层、消

费习惯或消费时间等,结合消费者的社会、文化等个人背景因素对心理的影

响来理解其消费行为;在预测需求的价格弹性上,会从维持生存、当期利益

最大化、市场占有率最大化和产品质量最大化等角度设置低价、高价、高性

价比和高质高价等多种以保证价格弹性;在估算成本上,会估算由固定成本、

变动成本、边际成本和机会成本等构成的总成本;在分析竞争对手上,会了

解市场上竞争对手及其产品,一定程度上竞争者越多价格越便宜;在选择定

价方法上,会采用竞争、需求和成本等不同导向定价方法;在确定最终价格

上,会考虑折扣定价策略(如现金、数量、功能、季节折扣或价格折让等)、

地区定价策略(如指定区域折扣等)、心理定价策略(如声望、尾数和招徕定价

等)、新产品定价策略(如撇脂、组合和渗透定价等)和差别定价策略(如顾客细

分、产品定位或地点时间等差别)等。总的来说,定价都是基于消费心理学

(consumer psychology)的,其中必定存在具有可能迷惑消费者的策略,此类策

略美国著名作家、怀疑论者威廉·庞德斯通(William Poundstone)曾在其超级

畅销书《无价》(Priceless: The Myth of Fair Value)中分析过[62],有降价与加量

的异同、“数字 9”的魅力等。

由于在线零售商没有跟实体零售店没有地理或库存优势,因而在价格竞

争上较之传统贸易激烈很多,电子商务领域的商品定价还另外增添了库存管

理和营销变价两块内容。其中:库存管理,即库存量单位(stock keeping unit)

规划,顾名思义是为了节省囤货成本,通常采用假想敌策略实行库存规划,

或者针对流量款、活动款或利润款等不同商品采取差异库存策略管理等;营

销变价则是指应对消费者需求、竞争者反应或生产者产量等采取主动降价或

提价等的动态定价,这种措施已被 eBay, Amazon, Pricegrabber、Nextag 等新

老零售商频繁使用。

目前,在商品定价上已有的数据创新有一种“身份定价”方式,这是一

Page 122: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

122

种商家对基于消费者购物习惯或偏好等的定价方式,但存在较大弊端,比如

习惯买高价商品的消费者会比较吃亏,又如有消费者担心隐私泄露问题等。

未来基于数据创新的商品定价变革将是根本性的,是原有商品定价模式

的一种逆反,非商家定价,而是由消费者定价。在上世纪末,有家名为

PriceLine.com 的网站曾尝试过这种方式,其主要业务就是收集消费者愿意承

担飞机票、旅馆房间、汽车或房产抵押的价格,在线公布之后等待最合适的

卖主,虽然该公司业绩平平,但在股票市场上获得了空前的成功,1999 年 4

月甫一上市股价就在一周内从每股 16 美元飙升到 80 美元,公司市值一度达

到 110 亿美元。而今,基于交易数据资源的挖掘与分析,较以前使用价格数

据收集、统计的方法更方便、更有商业价值。试想一下,在去欧洲的某个航

班上,针对近期有飞行需求的消费者在合适时间给予符合其心理价位的机票,

于航空公司和消费者都是有利可图的。

5.7.2 销售变革

源自 1994 年杰夫•贝佐斯创意、经 1995 年 IBM 的定义,电子商务这种

较为先进的商业流通领域交易方式也已发展了近 20 年。以其典型阿里集团为

例,诞生于 1999 年以 B2B 模式起步的阿里巴巴,2003 年设立 C2C 模式的淘

宝、2004 年发布支付宝、2005 年合作雅虎、2006 年投资口碑网(koubei.com)、

2007 年将广告引入商品建立阿里妈妈,在 2012 年交易额超万亿元后更是频

繁布局:2013 年 1 月以平台、金融和数据三大方向拆分集团,4 月斥资 5.86

亿美元购入新浪微博 18%股份,5 月以 2.94 亿美元 28%控股高德地图。正当

媒体持续炒作马云“荣休”之前的系列运作是为了“移动”而控制“位置信

息和社交关系”时,大家不要被马云的移动互联“障眼法”蒙蔽了,这些都

是在让阿里增添数据创造力,为实现一种未来的电子商务模式——

C2B(customer to business)做铺垫。早在 2012 年 6 月,阿里集团总参谋长曾鸣

在瑞士信贷中国投资年会演讲时就曾暗示过①;同样,马云在阿里告别演讲

中毫不隐讳地说,“大家还没搞清 PC 时代的时候,移动互联网来了,还没搞

清移动互联网的时候,大数据时代来了”。

① http://tech.sina.com.cn/i/ec/2012-06-06/20247231113.shtml.

Page 123: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

123

电子商务,不仅能表征传统贸易的信息化,还是能成为一种真正的销售

变革,这完全取决于 C2B 模式。列数其他模式,B2B、B2C 乃至 B2G(business

to government)在传统贸易中都有存在,依靠的都是原来传统工业时代“大规

模、流水线、标准化和低成本”的运作模式,而 C2C 带来了巨大的影响和冲

击、依然有线下影子,并且存货是以上模式共有的致命问题。

克里斯·安德森(Chris Anderson)在解释其所提出的长尾理论(the long tail)

时曾说[63],一些以前看似需求极低的产品,只要存储和流通的渠道足够大,

所占据的市场份额就能与主流产品相匹敌,甚至更大。未来商业流通领域的

价值链源动力是消费者驱动 (consumer driving),而非现有的制造驱动

(manufacture driving)或设计驱动(design driving),这就是销售变革的根本之所

在。实际上,C2B 模式并没有排斥共性,现大致有两种:一是聚合需求形式,

如反向团购;二是要约合作形式,如逆向拍卖等。从技术层面上说,这都是

基于交易数据创新的,需要更快捷地划分、分析和锁定消费者,转而将这些

小众的微量需求来改进商品、促成销售,将已有的定制开发逐渐从“大规模”

转成“个性化、多品种、小批量和快速反应”。

特别地,2008 年全球金融危机以后,长期以来与投资、消费并列为我国

经济发展“三驾马车”的外贸日益萎缩,转型升级势在必行,除了继续以“技

术、品牌、质量、服务、效益”培育新的竞争优势外,更重要的是再不能以

同质化产品实施 B2C 推广了,而是应瞄准用户的个性化需求,由消费者驱动,

采取 C2B 模式柔性化生产、高效工业组织。

5.7.3 支付变革

随着互联网“免费午餐”的日渐终结,连基金都在加紧布局网络消费的

今天,第三方支付的竞争更是愈演愈烈,自 2011 年 5 月至 2013 年 1 月①,中

国人民银行已针对第三方支付累计发放了 223 张非金融机构《支付业务许可

证》(俗称“支付牌照”)。

为此,以第三方支付这种将现金支付升级成数据支付的行业将面临转型,

通常有 3 种方式:一是与银行或支付机构合作,涉足供应链金融、提供信贷

① http://news.xinhuanet.com/fortune/2013-01/09/c_124205408.htm.

Page 124: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

124

担保,如快钱;二是向线下支付延伸,解决占款压力、缩短资金回笼时间等

问题,如拉卡拉;三是业务创新,诸如移动支付、细分行业(如保险、非税、

教育等)、跨境汇兑等。

然而,这些转型并非真正意义上的支付变革。真正的支付变革应当以数

据创新为基石的,如下述的两种。

一种是将管理支付转为管理数据,这种变革需要诸如 Hadoop 等大数据

分析和处理工具或者设计新的快速挖掘算法,以保证能大规模缩减时间。例

如,2013 年 2 月万事达卡国际组织下属部门 MasterCard Advisors 宣布与全球

最大的科学决策与数据分析公司 Mu Sigma 合作,将源于 210 个国家的 15 亿

信用卡用户的近 80 亿笔匿名交易数据进行挖掘,并将分析结果用于解决业务

挑战和出售。

另一种是将支付货币专为支付信用,这种变革需要在合理规范数据隐私

的条件下,建设包括个人和企业在内的国家诚信体系与第三方信用体系。例

如:阿里金融的“虚拟信用卡”①,向信用良好的支付宝用户提供 2 万元以

下可申请额度、供其在淘宝或者天猫上享受最长达 38 天的免息,这些资金是

由其他用户的短期沉淀垫付的,盈利点在于手续费。

① http://www.21cbh.com/2013/xintuo_35/631542.html.

Page 125: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

125

第六章 行业数据服务

行业①与领域就如同“线和面”的关系,这里并非赘述。当前,真正拥

有或控制某种行业数据资源的企业或组织并没意识到数据创新的重要性,因

而很有必要进行细化和补充。

应当看到,尽管存在行业壁垒,让这些行业龙头企业去自行完成所有数

据服务既不可能也不现实,应如《连线》(Wired)创始主编凯文·凯利(Kevin

Kelly)在其畅销书《失控》(Out of Control: The New Biology of Machines, Social

Systems, & the Economic World)中所推崇的,借鉴蜂群思维,将工作众包到由

8~12 人组成的“迷你工厂”群,以实现“分布式、去中心化、协作以及可适

应”的“共同进化”。

6.1 农林牧渔业

自古以来,农林牧渔皆是保障民生的基础行业。即便是科技高度发展,

在没有找到真正替代产品之前,这些行业仍是使我们远离饥饿的根本。在期

货市场,农产品与能源、金属及其衍生品一样,都具备资产性质。组成农产

品的期货商品有:大豆、豆油、豆粕、籼稻、小麦、玉米、棉花、白糖、可

可、咖啡、茶叶、猪腩、菜籽油、棕榈油、香蕉、牛肉、羊毛和橡胶等。特

别在 2008 年全球金融危机以后,为解决美国经济复苏、欧洲债务危机和其他

新兴经济体增速放缓等问题,世界各国普遍的量化宽松政策使流动性呈现边

际递减,供需面差异让农产品明显强于其他期货商品,另外还催生了诸如“蒜

你狠”、“豆你玩”、“姜你军”、“糖高宗”、“油你涨”、“苹什么”等系列网络

热词。

通常,农林牧渔业的发展带有很多不确定性,大致有正负两方面:一是

利用有利的区位因素,所谓“南橘北枳”,自然条件差异(如气候特征、地形

地貌和生物群落结构等)决定了不同地域农产品的类型和产量;二是规避不利

的环境因素,诸如如何摆脱工业化所导致的土地分散、环境污染和物种衰退

等。对于这些不确定性的研究,已有学者由纯理论探讨转向实证研究,一般

① 本章的行业划分部分参考了中国《国民经济行业分类和代码》(GB4754-2012).

Page 126: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

126

采用的是官方统计数据或专项调查数据。然而,来源于传统数据分析方法的

数据较单一、局限性大,处理这些数据既不能在宏观层面合理布局种植养殖、

提高土地效率和预测年度收益,也不能在中观层面抑制中间商投机行为、破

解“菜贵伤民,菜贱伤农”困局,同样不能在微观层面解决控制农业化肥用

量等实际问题。因而,科技兴农,应结合多源数据集进行创新,才能在国家、

区域和地方等不同层面引导、协调这一传统行业的科学生产。

6.1.1 靠数据吃饭

农业生产是一种人类与自然互作以获取资源的活动。在我国古代,农时

及其对农业生产的意义很早就被认识到了,相传尧时就有“敬授人时”的说

法,秦汉年间已完全确立黄河流域自然物候的“二十四节气”①。另外,还

有一种被称为“春牛图”的图鉴能揭示农耕早晚,有所谓“凡立春在腊月中,

策牛人在前,以示早也;在腊月晦,则策牛人当中,示农中也;在正月望,

则策牛人在后,示农晚也”。故而,长久以来,农业被认为是一种“靠天吃饭”

的行当,济南大明湖铁公祠和苏州观前街玄妙观里都供有“靠天吃饭图”碑,

甚至在《且介亭杂文二集》里鲁迅先生也以姜珂为笔名专门写了篇杂文探讨

“靠天吃饭”,起句是“‘靠天吃饭说’,是我们中国的国宝。”

让农林牧渔告别“靠天吃饭”,是一种发展共识。在气象科学的推动下,

传统的“靠天吃饭”已演变为“看天吃饭”,设在田间的多要素气象站除了能

收集降水、风速、风向、气压、二氧化碳浓度和气温等,还可以监测土壤墒

情等农田环境参数,能发现较多影响种植业和畜牧业生产的气候因素,其不

足有两个:一是普及率低,农业气象服务通常多用于科学研究,与实际应用

有“最后一公里”鸿沟;二是预报周期短,较为精确的是偏向于 15 天内中、

短期和 6 小时以下短时预报。近两年来,随着物联网投入力度的加大,通过

无线传感器网络的数据采集,农业物联网应用在一定程度上弥补了气象服务

的“最后一公里”问题,较出名的是复旦大学无锡研究院的 863 项目“智慧

稻草人”②。令人欣喜的是,数据采集和监测,正在将“看天吃饭”变为“看

① http://baike.baidu.com/view/901075.htm?fromId=6385.

② http://js.people.com.cn/html/2013/07/12/241039.html.

Page 127: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

127

数据吃饭”。然而,这种仅靠人工监测“看数据”是不够的,还需要分析——

“靠数据吃饭”。由 Goolge 前雇员大卫·弗里德伯格(David Friedberg)和西拉

杰·哈利克(Siraj Khaliq)在 2006 年创办、原名为 WeatherBill①的 Climate 公司,

能从 250 万个采集点获取天气数据,结合作物根部构造和土质分析等,进行

气候模拟并判断极端异常天气,2012 年 6 月,Climate 宣布获得由 Khosla,

Google Ventures 和 Founders Fund 等组合的 C 轮 5,000 万美元融资②。

另外,除了气象数据,其他数据源也应被纳入分析范畴,如结合地质数

据和市场销售数据,布局全国范围的粮食作物、果树、油料和棉花等不同品

种农作物播种或收获安排;结合遥感数据,控制病虫害流行与杂草蔓延;结

合生物数据,合理畜牧生产和水产养殖;等等。

6.1.2 退耕的测算

生态伦理学教父奥尔多·利奥波德(Aldo Leopold)在其著作《沙乡年鉴》

(Sand County Almanac)的结论篇中指出:人类对于自然界的改造越轻微,土

地金字塔的调整适应就越有效。本质上,以“粮食换生态”的退耕还林或还

草,并不是一种轻微改造,而是一种猛烈转变,并且这种生态系统群落还原

方式仅靠财政补贴实现不易。

利奥波德曾经的“还草”实验被凯利作为《失控》中的复原生物学

(restoration biology)案例的一部分:1934 年,利奥波德向威斯康星大学买下了

一个旧农场并开始着手恢复草原,但无论如何耕耘和播种只能使其杂草丛生,

10 年后其终于顿悟“火”才是恢复这个植物生态圈秩序的关键。这个案例还

有后文:1983 年,史蒂夫•帕克德(Steve Packard)这个“用火和软体种子恢复

稀树大草原”(restoring a prairie with fire and oozy seeds)的人重现了这一近似

草原的生态系统,起先的 3 年帕克德亲手砍伐灌木、精细播种各种北美草原

物种,却没有成功,后来随意播种了一些当地遗留下古怪黏糊种子后,居然

成功了,还出现了伊利诺伊州十多年未现的银蓝色爱德华兹细纹蝶;1996 年,

① http://www.climate.com/company/press/press-releases/2011/the-climate-corporation.

http://techcrunch.com/2012/06/14/founders-fund-leads-the-climate-corporations-colossal-50m-f

unding-round.

Page 128: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

128

田纳西州立大学生态学家图亚特•皮姆(Stuart Pimm)和吉姆•德雷克(Jim

Drake)使用多次组合实验揭示了进化次序的重要性,同时佐证了帕克德还原

稀树大草原的工作:前次之所以失败是得不到所需物种、不能清除不要物种,

引入了软体种子后,就聚合成稳定状态了,而稀树大草原则是基于本次组合

次序的偶然和必然。

所以说,退耕并非是想退就能退的,实际操作中,在花费人力、财力和

时间推进退耕之前,应进行数据分析:首先,测算各利益相关者之间的成本

和收益,土壤肥沃区就没有必要退耕;其次,对需要进行退耕区域以算法模

拟简化构建生态组合,选择合适的退耕方式。

6.1.3 疫情预警

农林牧渔,大概是涉及防疫最多的行业,有 3 种:一是农林业的有害生

物疫情征兆预警,用以预报病媒生物的发生种类、分布、传播途径、数量、

危害状况等,防止苗木或粮食作物因病虫滋生繁殖被侵染;二是畜牧业的养

殖动物疫情早期预警,用以控制诸如猪繁殖与呼吸综合症(PRRS)、猪细小病

毒(PPV)、猪圆环病毒(PCV-2)、猪瘟(CSF)、日本乙型脑炎(JE)、鸡沙门氏菌、

鸡支原体、鸡白血病、伪狂犬病(PR)等常见性疫病传播,并减轻诸如疯牛病、

口蹄疫和禽流感等可能人畜共患重大疫情的发生发展;三是野生动物(含鱼类)

疫源监控,用以掌握宿主动物分布及活动规律,从源头预防突发性疫情出现,

并确保能快速、科学、有序、安全和有效应对。

当前疫情预警一般采用的是流行病学调查、采样检测和临床诊断等相结

合方法,比如对动物群个体免疫抽检、抗体监测和病原学跟踪等,从调查数

据中对主要监测对象进行收集和整理,使用数学模型、人为设置各种指标,

进行准实时的偏宏观性评估后发布预测或预报。

同样,鉴于疫病数据的累积程度,现在应考虑将疫情预警的工作重心由

单纯的数据实时监测与收集转向数据挖掘,并结合不同领域或行业数据源。

以早前的甲型 H7N9 流感为例①,尽管 Google 流感预警服务并没有将中国纳

入预测范围,但其预示:北半球俄罗斯、美国和加拿大等国流感大爆发时间

① http://www.21cbr.com/html/topics/201304/09-12873.html.

Page 129: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

129

段是冬末初春的 2012 年 12 月至 2013 年 3 月,南半球阿根廷、巴西和澳大利

亚等国则是 2013 年的 6 至 8 月,这两个时段恰好与候鸟迁徙南北迁徙时间高

度重叠,8 条主要路径有 5 条穿过红色预警的俄罗斯,而这 5 条之一是从阿

拉斯加穿过西太平洋群岛经过我国东部沿海省份,而此次 H7N9 的主要疫区

正是位于东部沿海的上海和浙江。

另外,值得肯定的是,国家疾病控制中心在目前的非典型肺炎(SARS)疫

情防治工作已将遥感与地理数据源纳入预警分析范畴①。

6.1.4 经略海洋

类似“李约瑟难题”②,梁启超也曾提出过一个深沉的历史性问题[64]:

为什么“哥伦布以后有无量数之哥伦布”,“而我则郑和以后,竟无第二之郑

和”?诚然,明清以降,封建专制统治的闭关锁国、实施海禁及其带来的制

海权忽略,直接阻碍了我国海洋事业的发展,逐渐被世界发展潮流所边缘化。

甚至于客观唯心主义哲学代表格奥尔格·黑格尔(Georg Hegel)在其《历史哲

学》(The Philosophy of History)一书中略失偏颇地写道:“这种超越土地限制、

渡过大海的活动,是亚细亚各国所没有的,就算他们有更多壮丽的政治建筑,

就算他们自己也以大海为界——就像中国便是一个例子。在他们看来,海只

是陆地的中断,陆地的天限:他们和海洋不发生积极的关系。”作为一个负陆

面海的国度,中国同样是海洋大国,海岸线总长度达 3.2 万多公里,其中:

大陆海岸线北起鸭绿海、南至北仑河口,长达 1.8 万多公里,管辖的海域面

积达 300 万平方公里,这是与 960 万平方公里陆地面积一样重要的“蓝色国

土”③。

目前海洋科学领域已累积了海量数据资源,涵盖:海底地形数据、海面

高度数据、海洋遥感数据、海洋模式及其同化数据、船测数据、浮标数据、

验潮站数据和各种海洋调查数据等。同时,这些数据资源已实现科学共享,

著名的有:美国国家海洋和大气局 (National Oceanic and Atmospheric

① http://www.kepu.net.cn/gb/lives/sars/heal/200305290014.html.

② http://baike.baidu.com/view/106444.htm.

③ http://news.xinhuanet.com/politics/2013-08/12/c_116899470.htm.

Page 130: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

130

Administration, U.S. NOAA)的五分网格全球地形数据集(5-Minute Gridded

Global Relief Data Collectio, ETOP05)、以美国国家气候数据中心(National

Climatic Data Center, U.S. NCDC) 牵头收集的海洋大气综合数据集

(International Comprehensive Ocean-Atmosphere Data Set, ICOADS)、由总部设

在英国布拉克内尔的欧洲中期天气预报中心 (European Centre for

Medium-Range Weather Forecasts, ECMWF)所提供的海气模式数据集,以及实

施地转海洋学实时观测阵计划(Array for Real-Time Geostrophic Oceanography,

ARGO)、热带海洋全球大气计划的海气耦合响应试验(Tropical Ocean Global

Atmosphere – Coupled Ocean Atmosphere Response Experiment,

TOGA-COARE)等所获得的海洋调查数据集。

应当看到,推动海洋开发方式向循环利用型转变、海洋经济向质量效益

型转变、海洋科技向创新引领型转变和海洋维权向统筹兼顾型转变,都离不

开海洋数据资源的开发和利用,海洋数据创新是“经略海洋”的必由之路,

能为发展海洋经济、保护海洋生态和维护海洋权益提供技术支撑。

6.1.5 例:中粮全产业链危机

作为国家指定的粮油储备企业,中国粮油食品进出口(集团)有限公司(简

称中粮)旗下拥有中国食品(00506.HK)、中粮控股(00606.HK)、蒙牛乳业

(02319.HK)、中粮包装 (00906.HK)、中粮屯河 (600737.SH)、中粮地产

(000031.SZ)和中粮生化(000930.SZ)等多家上市企业。2009 年,中粮提出“全

产业链”①并将其作为企业经营模式,即:以消费者为导向,从产业链源头

做起,实现种植与采购、贸易及物流、食品与饲料原料的加工、养殖屠宰、

食品加工、仓储与物流、产品销售等每一个产业链环的介入,在该年 9 月全

面启动了“产业链,好产品,让生活更美好”大型广告路演。2013 年 3 月,

中粮将同样是国家粮油储备企业的中国华粮物流集团公司收入囊中,以弥补

其“全产业链”中的仓储与物流不足。

在国内居民食品消费升级、农产品产业转型和食品安全形势严峻的大背

景下,这种以打造“‘安全、放心、健康’全产业链”的经营理念,不谓不妥。

① http://baike.baidu.com/view/2953882.htm.

Page 131: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

131

然而,市场并不买账,由中国企业联合会、中国企业家协会连续公布的“中

国企业 500 强”年度名单上,中粮从 2009 年的第 19 位一路下滑,2010 年的

第 24 位、2011 年的第 41 位、2012 年的第 57 位和 2013 年的第 54 位;旗下

有 6 家上市公司均陷入业绩泥淖:主营番茄酱和糖加工的中粮屯河预计亏损

7 亿元,主营“长城”葡萄酒和“福临门”食用油等业务的中国食品发布盈

利预警称“净利润大幅下滑”;集团管理不善,存在企业品牌知名度低于产品

品牌知名度、子公司间博弈互为削弱优势等情况。

当然,中粮虽有危机却远没有到“无可救药”的地步,管理层应适时开

始考虑变革,及时开放获取集团数据资源,使用内部孕育和外部吸引两种手

段鼓励一批小微企业进行数据创新,从精准理解消费者和市场入手,进而形

成内外互动、有良性循环的新产业集群。

6.2 资源开采业

地球表层(earth surface)是一个复杂次级巨系统①,是由大气圈、岩土圈、

水圈和生物圈构成的物质循环、能量转化和信息传递重要场所,其不仅为物

种的生衍繁息提供了空间,还为人类的生活、生产和社会发展提供了水、土

地、矿产和能源等多种自然资源。然而,几百年来,在工业革命(industrial

revolution)的催生下,原本只占一隅的人类活动开始变得激烈,资源开采就是

其中一种。

尽管有罗马俱乐部(Club of Rome)多版《增长的极限》(The Limits to

Growth)的持续警钟,也有著名的“资源诅咒(resource curse)”悖论②,不可否

认,资源开采业仍是未来世界经济发展的基础产业,如果说农林牧渔业是为

人提供粮食的话,那么资源开采业则是在为“工业”提供“粮食”。当前,使

用新技术最大限度提高资源开发效率、利用程度和减少生态破坏,已是共识。

需要指出的是,在这些所能被选择和利用的新技术中,数据科技是相对较为

效率高、精度准和成本低的。

① http://baike.baidu.com/view/893280.htm.

② 1993 年,兰卡斯特大学(Lancaster University)经济地理学教授理查德•奥蒂(Richard Auty)

在研究产矿国经济发展问题时第一次提出了“资源的诅咒”(Resource Curse)这个概念,即

丰裕的资源对一些国家的经济增长并不是充分的有利条件,反而是一种限制。

Page 132: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

132

6.2.1 以数据勘探

长期以来,人类对各种自然资源的开发利用,不可避免地使其中一些剩

余赋存条件变差甚至面临枯竭。不过值得庆幸的是,随着多年来应用地质学

(applied geology)所秉承的“多学科交叉、多背景融合”发展,当前累积的海

量物探数据,已能关联不同资源,并支持低品位或隐蔽资源的勘探。

在地球勘查物理与地球勘查化学等领域,物探数据大致有以下几种[65]:

一是岩石物理数据,这种数据源于对岩层构造、地球内部动力过程、地幔对

流和地质环境及其演化等方面的研究,一般包含岩层的渗、孔饱、岩电、压

汞、粘土矿物、润湿性、铸体薄片、粒度分布等,在矿产资源勘探方面直接

或间接建立与含水层之间联系;二是测井数据,这种数据能被用于正确识别

流体,包括孔隙度、渗透率、含水饱和度、含油饱和度和产水率等,主要来

源于传统勘查手段和方法中的数据收集和抽取;三是地震频度等地质数据,

能用来判断如层间滑动与构造断裂交错矿等问题,以具体的沉积环境和构造

特征对矿产资源勘探进行指导。

显然,地质工程领域的数据处理与分析,已不再仅以地质解释为目标了,

而是在寻找各种海量探物数据之间的内在、尚未认识到的联系中,从一种“间

接”辅助手段转化为“直接”实现资源勘探的新方法,进而提升本行业增长

幅度。

6.2.2 按时间线规划

国土规划(national territorial plan)是为了解决国土问题并创造国土条件而

编制的空间计划,除了有国土资源的综合开发、合理布局外,还涉及水、矿

产、气候、海洋、旅游、劳动力等其他资源的开发利用为内容的生态环境综

合整治。所以,在日本被称为“全国综合开发规划”。

已有方法一般以分析为主,如文献分析、比较分析和综合分析等①,大

致有两种方法:一种是动态规划,根据空间性、立体性、自然性、社会性和

国际性等特征,将原问题分解为相对简单的子问题,如基础理论、国外借鉴、

① http://wenku.baidu.com/view/f573ee360912a2161479291a.html.

Page 133: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

133

技术应用、实践探索、深层剖析和法律体系等多个子问题,实行局部最优来

线索求解全局;另一种是路径规划,针对国土资源或其他自然条件的“障碍

物”,寻求找到解决“社会经济现状分析和远景预测;国土开发整治的目标和

任务;自然资源开发的规模、布局和步骤;人口、城市化和城市布局;交通、

通信、动力和水源等基础设施的安排”等问题①从起始状态到目标状态的无

碰撞路径,如耕地保护面积和水资源开发“生存线”,生态功能区和各类国家

级保护区范围“生态线”,保障经济社会发展、优化城乡建设空间的“发展线”,

能源和重要矿产生产基地及运输通道的“保障线”等。

由于国土规划所涉及的是一个国家未来相当长时期内的空间布局,在具

体编制中往往存在耗时长、涉及面广等缺陷,仅以我国国土资源部会同国家

发改委牵头的《全国国土规划纲要(2011~2030 年)》为例,编制工作长达两年,

共涉及 9 方面 48 项重大专题,有中科院、社科院和北京大学等 30 多个部门

参与。

同样,国土规划研究可以采用数据学的理论、方法和技术。特别地,这

种新方法能实施按时间线规划,即:打破各种计划体系“年度”限制,依据

时间顺序,将多方面的时间足迹事件串联起来,完成这一综合规划基于时间

的空间系统化、完整化和精确化。

6.2.3 例:油气巨头的“大数据行动”

创建于 1990 年、全球最具权威的石油勘探开发数据标准化组织

POSC(Petrotechnical Open Software Corporation)早期所获得的是世界上5个主

要油气公司的联合资助,这些巨头分别是 BP Exploration, Chevron Corporation,

Elf Aquitaine, Mobile Copoartion 和 Texaco Inc,这是因为:较其他行业,石油

工业更早、更多地依赖于数据。当前,石油勘探开发数据已成为这些石油巨

头资产评估的依据,“大数据”往往意味着“大油气”,如了解底下油气藏的

储量和开采现状等,而且通过对数据的挖掘和应用还能实现新的油气增产。

根据埃森哲与微软合资企业 Avanade 咨询的《2011 年石油与天然气行业

① http://baike.baidu.com/view/36247.htm.

Page 134: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

134

合作调查》结论①,为获得更多的财富和价值,众多油气公司已将数据挖掘

技术应用于战略决策、科技研发、生产经营和安全环保等各个方面。举例来

说②,BP 建有能提供的公司标准化管理和外包服务的全球数据中心;壳牌基

于 OpenWorks 格架库建立石油数据银行系统对公司数据资产进行管理;

Chevron 已实现 5 万台桌面系统与 1,800 个公司站点数据共享,以消除炼油、

销售与运输“下游系统”中的重复流程,4 年已累计获得净现值约为 2 亿美

元的回报;斯伦贝谢(Schlumberger)、哈里伯顿(Halliburton)和贝克休斯(Baker

Hughes)等公司则通过建立数据勘探开发一体化研究与作业团队,以数据支持

油田生产规划与决策,加大对非常规的深水或极地等油气资源开发。

6.3 加工制造业

工业化,毋庸置疑,是 20 世纪以来人类社会物质文明极大进步的源泉。

这种被描述为“国民经济中一系列基要的生产函数(production punction)或生

产要素组合方式连续发生由低级到高级的突破性变化的过程”[66],工业化是

以大批量、标准化和生产线的重复性加工制造为特征的,包括但不限于:钢

铁、冶金、水泥、玻璃、造纸、酒精、制革、印染、化纤、纺织、服装、制

鞋、箱包、玩具、机电、家具和塑制等行业,其所显示的文明有 4 种,即知

识的推动、商品交换的自由、市场的扩张和资本的积累。

近年来,人们开始质疑是否真的需要为了不断膨胀的物质资料需求,将

自身置于诸如能源危机、资源匮乏、生态恶化等不可控的处境之中,进而威

胁到人类赖以生存和发展的整个自然界。由此,“新型工业化”被提出来。这

种“新”表现在:一是摒弃传统工业化“先发展再治理”,偏向于发展“科技

含量高、经济效益好、资源消耗低、环境污染少和就业人口多”③的工业化、

使用绿色 GDP 衡量经济增长;二是走新的科技路径,将原本计划、投资和粗

放型变为市场、科技和集约型。应当看到,数据创新很符合这两方面要求。

http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Upstream-Software-Soluti

ons-2011-Summary.pdf#zoom=50.

② http://www.chinapipe.net/national/2012/16997.html.

③ http://baike.baidu.com/view/600443.htm.

Page 135: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

135

6.3.1 优化产能

产能(capacity)①即生产能力,指的是在既定计划期内、现有组织技术条

件下,所能生产的产品数量,或者能够处理的原材料数量,这既是一个加工

制造能力的技术参数,也可以反映生产规模。通常,测度产能过剩(excess

capacity)与否的产能利用率(capacity utilization)是一种较为主要的宏微观经济

评判指标,比如美国将产能利用率 78~83%作为正常区间(低于 75%为产能过

剩、高于 90%为产能不足)②。

以优化产能为目标,所涉及的是不同视角、多因素问题,同时产能过剩

还并非是一种很严密的经济学概念,有时适度的产能过剩可能是信息不对称

和要素产出弹性较低情况下的较优选择[67]。因而,优化产能既不应仅仅空泛

地进行预测或确定减产目标,也不应一味因噎废食地实行“关停并转”,更不

应在不了解行业或企业产能实际的情况下生搬硬套地选择计量模型。

以钢铁行业为例③,在我国,淘汰钢铁落后产能始于 2006 年,根据国家

发改委等 8 部门联合发文的发改工业[2006]1084 号《关于钢铁工业控制总量

淘汰落后加快结构调整的通知》内容,原计划是在“十一五”期间将钢铁产

能控制在 4 亿吨规模,拟淘汰落后炼铁产能 1 亿吨、落后炼钢产能 5,500 万

吨,但在随后不到一年的 2007 年产能已超过这一数额,发改委随即调整调控

目标至 5 亿吨规模,而 2008 年则再超、达到 6.6 亿吨,与此同时,产能利用

率却一再下跌,从 2004~2007 年的平均 83.5%,降至 2008 年和 2009 年的分

别 75.83%和 75.8%169。

数据创新在产能优化上将发挥与众不同的作用。例如,在 2013 年 5 月的

《华尔街日报》(The Wall Street Journal)上有一则关于美国国防承包商雷神

(Raytheon)公司使用大数据报道称④,雷神已从自身或其他供应商所累积的历

史数据中获得先验知识,能以瑕疵消除和隐患追踪等方法入手提升产品质量、

优化产能,比如“一颗螺丝钉要拧 13 次才能够上紧”,若在制造过程“少拧”

就会有故障警示并停止导弹或配件的生产;又如,现阶段部分如钢铁、煤炭、

① http://baike.baidu.com/view/635812.htm.

② 数据来源:http://wenku.baidu.com/view/1a54a0e0551810a6f5248660.html.

③ http://www.dongshihui.com.cn/Magazine/ArticleDetail/2149.

④ http://online.wsj.com/article/SB10001424127887324059704578472671425572966.html.

Page 136: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

136

汽车或房地产等结构性产能过剩的局部行业转型升级问题,应实施跨行业交

叉挖掘,从国家层面、产业链角度,突破计量模型的限制,以合理碳排放等

环保要求入手,进行顶层设计、提供具体产能优化安排。

6.3.2 重塑流程

企业以资金为“血液”,工业企业尤以为甚。一般来说,加工制造类企业

的资金占用(capital occupation)至少会涉及到 5 笔成本,分别是:原材料、流

水线、销售、库存和流动资金。

因而,汽车零配件企业选址靠近整车工厂、外贸型中小企业建立战略联

盟共享信息或者针对热销产品采取“先收款、再发货”等诸如此类现象,均

是企业在日常经营中规避资金占用的措施。较之这些在市场上与其他企业(如

供应商、合作伙伴和客户等)协作的取巧手段,从调整自身业务流程运作和管

理角度,解决诸如资源分散、产品积压、库存过多和设备利用率低等问题,

是企业减少资金占用更为直接和有效的方法。

数据创新能为企业重塑业务流程服务,这里使用的是工作流数据

(workflow data)。这种由任务分派所形成的在不同活动、不同执行者或是活动

不同层次之间流动或传递的数据,得益于工作流技术在工业界广泛应用的累

积,依据其作用范围可分为工作流控制数据(workflow control data)、工作流

相关数据(workflow relevant data)和工作流应用数据(workflow application

data)3 种。工作流挖掘的初衷①是重现业务流程的真实过程[68]。分析与挖掘工

作流数据,能从频繁执行路径获悉业务上下文、隐藏模式和规则,从任务关

键触发因子的最小支持度阈值找到业务活动之间存在的关联性,等等。例如,

找到在报销流程中较低金额的实际底线(如 500 元),并将其限定于部门内部

审批,以节省因审批环节过多而造成的办公成本浪费;又如,控制制造流程

任务的节拍时间,采取示警方式来防止因某一项任务的时间过多而造成的原

材料、半成品或产成品的大量积压。

① 原文是:... proved their applicability to real-world process data by contributing to the

formulation of a process model that usefully abstracted the actual process executions and

captured important properties of the process behavior.

Page 137: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

137

6.3.3 定制生产

近期有一则很“可乐”的新闻①,可口可乐这个卖了近百年“糖水”的

公司将与微软合作在国内建立数据中心,用来处理和中国市场相关的数据。

在此通报道的最后,还援引可口可乐商业创新负责人阿兰·博梅(Alan Boehme)

的话说“大数据,你得重视它”。其实,可口可乐早先就曾与奇虎合作、以炫

酷方式联合推出过 10,800 个“快乐昵称瓶”私人定制②,瓶身上的 59 种昵称,

诸如纯爷们、萌妹子等,是在对社交网络上使用频率较高词汇进行捕捉、通

过多个维度定量比较后,人工筛选出来的;并且,还能在事后对这些已知分

类标签的消费者数据进行进一步分析。同样,成功转型“人单合一”模式的

海尔集团在 2013 年 2 月携手阿里巴巴旗下的天猫试水定制③,其口号是“海

尔我的家,定了”,涉及的家用电器包括:冰箱、洗衣机、空调、冷柜、彩电、

吸油烟机、燃气灶、消毒柜和热水器。尽管在内容上,这些所涉及的数据创

新还较肤浅,但这些企业有如此先见之识,已是不易。

需要指出的是,这种工业流水线定制生产,实质应是 1970 年由美国著名

未来学家阿尔文·托夫勒(Alvin Toffler)在其著作《未来的冲击》(Future Shock)

中所提出的大规模定制 (mass customization),而并非字面意义的单件

(one-of-a-kind)产品制造。这种定制适合的是大多数质量一贯稳定、易标准化

的产品,如家电、自行车、服装、家具和计算机等,与大规模生产(mass

production)的差别仅在于其中若干道因人而异的工序上。

被理论界研究了近半个世纪的大规模定制,之所以实践较少,是有其局

限性的,这种局限性主要是消费者服务及其需求获取的难度[69],应当看到,

数据挖掘技术恰恰是用来支持如顾客分析等的广泛商务应用的。因而,基于

数据创新的大规模定制易于应用推广。

6.3.4 适度营销

很多时候,加大营销力度是从同质化竞争“红海”中脱颖而出的一种有

① http://www.pingwest.com/coca-cola-will-launch-a-data-center-in-shanghai.

② http://info.so.360.cn/coca-cola.

③ http://informationtimes.dayoo.com/html/2013-03/05/content_2170076.htm.

Page 138: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

138

效方法。以烟草和粮食类白酒行业为例,在我国,尽管广告法明文规定禁止

发布或变相发布烟草广告、税法不允许粮食类白酒广告费用的税前扣除,但

是许多烟草企业仍以公益宣传形式发布广告、粮食类白酒企业使用业务宣传

费代替广告性支出列支税前扣除,究根诘底,是因为这些行业的营销费用过

于庞大。根据《证券日报》2013 年 1 月一篇名为“白酒企业狂赌春节市场、

烧钱广告地毯式轰炸”的报道①,“在 2013 年央视招标会上,白酒企业共投

入广告费用高达 42.1 亿元,占总额的 31.4%。其中:剑南春 6.09 亿元,茅台

6.23 亿元,五粮液 4.99 亿元,西凤酒 3.42 亿元,劲酒 3.17 亿元,洋河股份

3.11 亿元,汾酒 1.61 亿元,四特酒 1.6 亿元,水井坊 7,799 万元”。烟草同样

如此,《北京晨报》称②“市疾控中心健康教育所通过监测中央电视台 15 个

频道、北京电视台 11 个和 6 家地方卫视共 32 个电视频道,在今年 5 月 13

日至 19 日这一周内节目播出情况发现,烟草广告总共出现了 117 次,CCTV10

播出的 2 条红塔烟草品牌延伸广告就反复出现了 97 次。”

因而,从当前情况来看,许多企业的营销活动已过度而非适度,各种不

求利润、不计成本的广告或价格大战,同时损害了自身的即时利益、消费者

的长远利益和社会的整体利益,4 种外部成本表现为:一是利益倾斜造成福

利损失,二是恶性竞争导致资源浪费,三是垄断势力阻碍有效竞争,四是信

息错位增加交易成本。

数据营销是一种适度营销活动,远胜于饥饿营销,除了能如前文所述的

从市场定位、商业洞察和客户评估角度了解消费者真实需求外,还能在产品

还未上市前进行市场提前培育或按照消费者要求实现功能微调,以取代以往

产品上市前昂贵而规模较小的市场调研。这里有一个例子③,已于 2013 年 1

月更名为黑莓公司的加拿大 RIM(Research in Motion)公司,在黑莓 10 操作系

统发布之前的一个季度之前,就启动了一个名为“黑莓 10 准备项目

(BlackBerry 10 Ready Program)”通过透露技术细节进行提前营销造势,在北

美市场吸引到超过 1,600 个客户注册参加,包括 60 多家“财富 500 强”公司

和主要政府机构,并在这个过程中不断收集数据来改进这款产品。

① http://zqrb.ccstock.cn/html/2013-01/24/content_337802.htm.

② http://bjcb.morningpost.com.cn/html/2013-05/28/content_227539.htm.

③ http://tech.huanqiu.com/comm/2013-01/3516111.html.

Page 139: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

139

6.3.5 例:IBM 介入制造业

在 2008 年 11 月提出“智慧地球”概念后,IBM 开始尝试使用“IBM 智

慧的分析洞察”这一工具为全行业提供解决方案。在许多案例里,IBM 介入

制造业①有 4 个较为典型的,介绍如下②。

1.优化乌江水电产能

贵州乌江水电是中国华电集团公司下属的流域水电生产商,拥有 7 座水

坝和乌江沿岸所有水电站群。在以前各个水电站单独管理时,存在水资源浪

费和整体发电效率低下等状况。IBM 介入后,使用 WebSphere Message Broker

集成关键应用并支持水坝和水电站的水位、水压、电源电压、发电机状态及

其他相关情况的数据交换,建立了 50 多种分析与预测模型,既优化了水电产

能,还能避免因水坝内水量超载引发的生态问题、减少泥石流或洪水风险。

2.重塑雅戈尔流程

雅戈尔品牌服饰是连续 8 年稳居中国服装行业销售和利润总额双百强排

行榜首位的企业,曾获得过中国服装协会颁发的公众大奖、成就大奖和营销

大奖。2001 年前后,雅戈尔遭遇生产能力过剩问题,库存积压、物流成本凸

现,其选择与 IBM 合作。IBM 使用 Cognos 软件为其设计了“喝酒模式”,

比如通过透明酒杯分析酒的多寡以减少剩酒,即以销定产,使雅戈尔从面料、

生产、配送到销售每个环节都透明,实现了流程重塑。

3.协助 Heidi Chocolat 定制生产

Heidi Chocolat 是罗马尼亚著名巧克力制造商之一,产品行销 14 个国外

市场。2009 年春天,Heidi Chocolat 抛弃了一直惯用统计业务的微软 Excel,

转而与 IBM 合作,用以“帮助管理不断增长的产品组合、实时访问数据并支

持复杂的折扣系统”。IBM 在其合作伙伴 S&T Romania 的帮助下,为其部署

了 Congnos 8 Planning,帮助 Heidi Chocolat 针对 10 多个指标、400 多个客户

和整个产品进行组合,实现了定制生产。

4.辅助菲亚特适度营销

世界十大汽车之一的意大利菲亚特(Fiat)汽车公司始建于 1899 年 7 月,

① http://www-31.ibm.com/ibm/cn/bao/cases/ca/index.shtml.

② 这些案例来源于 IBM 官方网站。

Page 140: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

140

是世界上第一个生产出微型汽车的厂商,设计、生产并销售 Fiat、Alfa Romeo、

Lancia、Fiat Professional 和 Abarth 品牌的汽车,在 100 多个国家设有子公司

和销售机构。为确定新老客户购买某一特定品牌或型号的可能性,菲亚特与

IBM 合作①,使用 SPSS Statistics, SPSS Modeler 分析了超过 6400 万客户的历

史数据,找到潜在用户,实现了精准的适度营销。

6.4 仓储业

仓储,从字面理解②:“仓”即仓库、“储”即储存,如农资仓库、物资

仓库、商业仓库、工业仓库、外贸仓库、化学危险品仓库、液体物品仓库、

冷藏冷冻仓库、港口仓库和保税仓库等。然而,现代“仓储”的角色已发生

变化,对应的英文单词是“warehousing”,表示的是利用仓库相关设备的一种

活动或一个过程③,较以往更偏重于时间管理,有 2 方面基本内涵:一是仓

储活动,涵盖货物的“追、收、查、储、拣、发、盘、退”8 项作业,涉及

“进出、库存、分拣、包装、配送和数据处理”6 个方面;二是物流活动,

即“配送”,这不是一般意义上的运输,与物流活动相配合是仓储的内核要求。

随着仓储信息化的发展,如射频识别(radio frequency identification)、无

线传感器网络(wireless sensor network)等的大规模应用和部署,仓储业应当看

到:只有掌控数据,才能管控货物。

6.4.1 仓储拣货优化

在仓储活动的 8 项作业中,拣货作业(order picking)是相对重要且繁杂的,

指的是尽可能迅速、准确地将货物从储位区域拣取出来④并按一定方式分类、

配装等的作业流程。一般来说,这一作业的时间由订单准备时间、拣货行走

时间、货物搜索时间和货物拣取时间等组成。

在以前,仓储信息化不高的拣货作业所依靠的是拣货员的熟练程度,不

同拣货员的拣货顺序及其行走时间是影响这一作业效率的关键。因而,早在

① http://soft.zdnet.com.cn/software_zone/2013/0524/2161025.shtml.

② http://baike.baidu.com/view/804590.htm.

③ http://baike.baidu.com/view/1855712.htm.

④ http://baike.baidu.com/view/2435211.htm.

Page 141: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

141

1959 年,美国著名数学家乔治·丹齐格(George Dantzig)就与约翰·拉姆奇(John

Ramser)一起提出了拣货路径问题[70]。由于这一问题能替代近乎苛刻的拣货员

考核指标,引起了众多学者的关注,有使用路径穿越策略的,有采取最短路

径的,在求解上大同小异,先假设仓库空间构造、货物摆放和配送订单要求

等条件,然后选择模型,再将不同算法诸如启发式算法、蚁群算法、粒子群

算法、神经网络算法、遗传算法等嵌入。尽管其中一部分优化的实验效果相

当不错,但理论性偏强、实践应用程度不高。

当前,数据挖掘这项以应用而生的技术,能帮助仓储企业找到除拣货路

径外先前隐藏或不易分析的其他可优化因素,以更好理解客户需求。比如在

作业流程上,获悉作业间协作的隐藏模式和规则;又如在仓库布局上,挖掘

客户及其货物特征并预测未来订单、测算仓库堆码高度或货物稳定度、分配

拣货货位与存储货位;再如在货物摆放上,预估货物存取频度、找到不同货

物之间关联关系分析;等等。

6.4.2 物流通道均衡

通常,客户选择仓储节点,物流通道的均衡与否是应首先被考虑的关键

因素。非均衡的物流通道或者脆弱的运输连接会因拥堵导致:浅层次的诸如

低速油耗、环境污染、时间延长或交通事故等个体成本的增加,以及深层次

的涉及资源配置扭曲、社会福利损失等社会成本的损耗。有调查表明,这种

拥挤成本所占比重是很大的,以新泽西港口扩张与腹地高速公路新增运输量

相联系的总社会成本为例①,每新增 6%的集装箱运输量会造成年度拥挤成本

增加 6.63~16.2 亿美元;在我国,目前有八成食品选择公路作为物流通道,

脆弱的运输连接、匮乏的专用运输工具导致在这一环节食品损耗率高、受二

次污染可能性大,特别地,“海鲜、乳制品等易腐食品售价中的 70%是用来

补贴流通过程中货损的支出”②。

物流通道均衡问题属于物流的空间分析范畴,是物流规划的基础。现有

① 数据来源:http://www.gateway-corridor.com/vancouverconference/documents/presentations/Berechman%

20Session%20II.pdf。

② 数据来源:http://wenku.baidu.com/view/1e2dacf3941ea76e58fa04da.html。

Page 142: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

142

研究大多是基于企业区位理论的,一般从区位系统时效、覆盖圈、紧度等概

念出发,联合路段、运线选择,假设区位空间核心点、选择静态模型进行求

解的,是一种理论经济学的实证性分析。

由于行业壁垒的存在,单纯挖掘物流数据以帮助解决物流通道均衡问题

的研究很少,这有两方面原因:一方面是数据取得困难,另一方面是能够取

得的数据量小。应当看到,涉及这一行业的数据产品市场前景是很大的,既

能满足国家层面的诸如灾备应急物流、军事后勤服务等需求,又能满足仓储

业企业追求最大经济效益的从单一分段服务向全过程服务的转变,还能满足

消费者寻求的诸如服务弹性化、多样化和价格透明化、组合化等,阿里巴巴

的马云正是看到了这里庞大的市场。另外需要指出的是,挖掘其他相关行业

或领域数据资源能为解决这方面问题提供帮助。

6.4.3 仓储物流的图论演化

一般来说,仓储与物流是“焦不离孟”、“孟不离焦”的,两者均会为己

方客户提供彼方业务作为增值服务。例如,世界诸多知名仓储业巨头,新加

坡的普洛斯(Global Logistics Properties)、美国的盖世理(Gazeley)①、澳大利亚

的嘉民(Goodman Group)、日本的新熙地(NewCity Corp)等,均是兼营物流的;

同样,化工领域专业物流企业如 Chemion、Kruse 和 Talke 等都擅长化工产品

的储存。

因而,若能在国家层面将仓储和物流的数据资源归并、实现共享,在挖

掘时,可用图论对仓储节点和物流通道进行抽象,找出这两个相关行业间所

涉及的诸多离散问题之间的多元关系,从而实现这两个产业链环间的协同,

进而推进整个上下游的最优演化。

以食品冷链为例,众所周知,生鲜食品由于鲜度、营养等质量较高要求

应低温保鲜,除了必须遵循“当天加工,当天配送”的物流原则外,还需在

有条件的地方建立集约化、专业化的食品储藏兼有加工的仓储节点。要做到

这些,就要预先进行历史数据挖掘,找到公路、铁路、航空及水上常年性食

① 盖世理(Gazeley),原为沃尔玛全资子公司,已于 2008 年被迪拜世界集团旗下的经济区

世界公司(Economic Zones World, EZW)收购。

Page 143: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

143

品物流通道,依据现有周边区域仓储节点分布状况和存储特点,改善食品仓

储容量不足、库点分布不合理、规模普遍偏小等现状,以构建低成本、无污

染、高效率的绿色网络。当然,其他的诸如化学品、危险品或污染品也应如

此,还能相应减少仓储和流通环节的废弃物污染。

6.4.4 例:“菜”鸟于飞

在物流业界,默认将快递称为“小”物流,诸如淘宝、天猫、京东、易

迅和苏宁易购等电子商务所产生的包裹皆属于此列。2013 年 5 月,马云“荣

休”18 天后高调复出,牵头阿里巴巴、银泰集团、复星集团、富春集团、顺

丰速运和三通一达(申通、圆通、中通和韵达),注资 50 亿元,组建“菜鸟网

络科技有限公司”,宣称:一期投入 1,000 亿元、总投资 3,000 亿元,势在重

塑中国快递业的格局。应当看到:在未来,“小”物流将以“菜鸟”唯马首是

瞻①。

尽管在“菜鸟”之前,京东已拥有辐射全国的 7 个区域分发中心、25 个

前端物流中心和 37 个一、二级分拨中心,投资 35 亿元在上海构建了占地约

120 亩的“亚洲一号”即将投入使用;易迅在全国已新建了 10 多个仓储配送

基地;苏宁也正计划在未来 3 年投入 200 亿建设物流基础设施,这些都不及

“菜鸟”的震撼力,这是因为:这是一种仓储物流的颠覆式数据创新,其实

质将所有电商的“小”物流领域、各个物流环节的数据整合起来,让物流更

智能化,其带来的势必是规则与格局上的革新。

6.5 航运业

航运,历来是一个国家综合实力的体现,通常有 5 种主要运输方式,即

航空、水路、铁路、公路和管道,其中:水路还分成海运和河运两部分。这

些方式均有各自优缺点,航空的速度快、运量小、运费高,水路的速度慢、

运量大、成本低,铁路的运量大、驳运次数少,公路的机动性强,管道的运

具与线路合一、连续性强,等等。由于公路交通的“人”、“车”特殊性,前

① http://news.3snews.net/2013/exclusive_0814/26206_2.html.

Page 144: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

144

文已进行了单独说明;这里从航运中心建设角度进行介绍。

建成国际枢纽港,除了基础设施建设外,还亟需构建相应的数据资源中

心,只有这样才能适时利用数据创新、提升软实力,从解决操作层面实际问

题、整合现有航运服务产业链入手,培育航运数据产业集群;而非单纯地依

赖各种航运景气、信心指数进行行业激励。

6.5.1 运力预测

对于国际级航运中心而言,从自身集疏运体系出发,合理安排运力,是

切实提高港口吞吐能力与运作效率的首要任务。然而,这种吞吐能力并非仅

是由深水泊位个数决定的,而是受很多因素共同影响的,如港口理货等各种

作业、港存罐存状况,物流环节船东货主及其代理等多种机构、水陆空等运

输方式等。因而,以国际枢纽港为建设目的,除了继续进行结构性基础建设

布局或改造外,基于现有出入港物流数据资源开展数据创新,是未来优化航

运服务、打造成本洼地的主攻方向。

运力预测就是这种数据创新中比较有应用意义的,可从两方面入手:一

方面是预测市场,即在获悉用户偏好的基础上,找到航运市场需求及其供给

之间的关联关系;另一方面是演变分析,即针对枢纽港本身各种软硬件条件

的变化进行数据推演。以上海港为例,当前状况是公路货运比例较高,这并

不意味着要压缩陆运,而是应将所涉及的长江、黄浦江及其他内河航道疏通

改造数据、铁路货运能力提升数据、浦东虹桥两大机场国际国内货运航线增

加数据都纳入其中,使用集疏运速度和辐射半径演变分析,串联公路、水路、

铁路和航空,开展长中期、短期乃至实时预测,则能在一定程度上加大运力

的应变弹性。

此外,国际航运减排是环境政治发展的必然趋势,准确的运力预测是帮

助我们规避“碳陷阱”,在风云变幻的国际舞台上掌握“话语权”,进而获得

探讨符合国家利益的减排约束及其法理性原则的数据依据。

6.5.2 驳运关联

在被誉为“现代科学幻想小说之父”的 19 世纪法国著名作家儒勒·凡尔

Page 145: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

145

纳(Jules Verne)的《八十天环游地球》(Around the World In 80 Days)里,主人

公英国绅士斐利亚·福格(Phileas Fogg)与其改良俱乐部(Reform Club)朋友们

打赌,在仆人路路通(Passepartout)的帮助下,倒了很多次火车、轮船,历经

欧非亚美四大洲,在 80 天内环游地球一周回到伦敦并收获了爱情。虽然这只

是一部小说,却是一个很典型的驳运案例。在现实中,这种驳运事件比比皆

是,比如货运或海运中因某区域大货车禁行或港口吨位限制,需要有小车驳

运或小船出港驳货;又如轨道交通“最后一公里”换乘的公交或“黑摩的”;

其他还有 2012 年 4 月,东方航空与上海铁路局①首推的经由虹桥转乘铁路前

往“苏锡宁常杭甬台”7 个城市的“空铁通”联运产品等。

在国内已有研究中,通常将驳运设计作为区域规划的一部分,偏向于使

用空间来定位调整满足客流出行的城市功能,大到长三角、珠三角都市圈驳

运②,小到虹桥综合交通枢纽内部接驳(feeder)③,均有人涉猎。应当看到,这

种驳运事件的实质是基于时限约束的关联分析。以东航产品“空铁通”为例,

跟据其官方宣传,针对消费者是价格敏感群体,这一创新产品之所以反响平

平,恰恰是因为没有抓住用户的真实需求,应改为针对时间敏感群体,其中

必须要有数据创新以提高空铁换乘的时间衔接紧密度。当然,既然有“8 张

火车票曲线回家”这一先例④,说明了:同时考虑驳运的时间和空间,是更

优选择。需要指出的是,合适的驳运关联对国际枢纽港建设很有帮助。

6.5.3 例:“铁老大”的经济学分析

铁路运输业是国民经济的基础行业,同时是衡量一个国家现代化程度的

标志之一。自 20 世纪 80 年代以来,中国铁路取得了举世瞩目的成就,已基

本建成沟通南北、横贯东西的综合运输体系;截止 2012 年底⑤,拥有铁路营

业里程 9.8 万公路,其中高速路网(即高铁)里程达到 9,356 公里。后大部制时

代,被拆分成立的中国铁路总公司依旧是“铁老大”。

① http://easternmiles.ceair.com/about/ggcx/t2012428_6853.html.

② http://d.g.wanfangdata.com.cn/Thesis_Y990716.aspx.

③ http://wenku.baidu.com/view/9b7b2e0e52ea551810a68760.

④ http://finance.chinanews.com/cj/2013/02-03/4543416.shtml.

⑤ 数据源:http://stock.eastmoney.com/news/1415,20130205272231531.html.

Page 146: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

146

根据世界银行 2011 年数据进行中美比较①,忽略平行轨道铁路总长度,

中国是 66,239 公里、美国是 228,513 公里;客运量,中国是 8,156.99 亿、美

国是 95.18 亿;货运量,中国是 2.56 万亿吨,美国是 2.52 万亿吨。由此表明,

尽管去除平行轨道后,我国的铁路营业里程是美国的 28.98%,但每公里客运

量是其的 85.7 倍、货运量基本相当。以美国铁路近年来 10%以上的投资回报

率②来看,参照巴菲特 12 天时间闪击美国第二大铁路运营商 BNSF(Burlington

Northern Santa Fe)440 亿美元收购的大手笔,即便是负债 2.66万亿元人民币③,

我们“铁老大”的价值仍在被低估。

除了这些有形的,“铁老大”被低估的还有数据资产,该笔资产得益于其

自 2000 年以来持续信息化投入④所累积的数据资源,近几年的投入分别为:

2008 年的 85.45 亿元人民币、2009 年的 92.15 亿元人民币,2011 年的接近 200

亿元人民币,涉及的系统有:铁路运输管理信息系统(含列车确报管理信息系

统、货票信息综合应用系统、集装箱管理信息系统、车号自动识别系统、货

运营销与生产管理系统、铁路运输十八点统计系统、铁路车站综合管理信息

系统等)、客票发售与预定系统、铁路运输调度指挥管理系统、运输基础设施

管理应用系统等,其他还有财务信息系统、统计信息系统、机务信息系统、

办公自动化系统、工务信息系统、机车维修管理系统、车辆维修管理系统、

电务设备管理信息系统,如计划管理、人劳管理、科技教育管理等综合部门

的管理信息系统。仅以春运火车票网络预订为例,尽管状况频出,如有高峰

时刻登录不畅、购票过程强迫排队、订单提交成功率低和 360 等含抢票插件

的浏览器被屏蔽等,但仅凭客户订单这一类数据,“铁老大”就掌握了中国经

济最为关键的劳动力转移状况,较经济普查数据还要真实、准确和及时,更

别说还能从中挖掘客流出行特征了。

由此,“铁老大”对其所拥有数据资源的分析和挖掘,完全可替代现有经

济学家进行宏观和微观经济学分析,并帮助政府理清未来经济发展脉络。

① 数据源:http://search.worldbank.org/data?qterm=railway&language=ZH-HANS&format=.

② 数据源:http://jpkc.szpt.edu.cn/wldl/admin/ewebeditor/UploadFile/2011121822456989.pdf.

③ 数据源:http://comments.caijing.com.cn/2013-05-31/112853136.html.

④ http://baike.baidu.com/view/1784887.htm#refIndex_1_1784887.

Page 147: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

147

6.6 零售业

有可能是最为古老行业的零售业,由于始终在创新,其一大表现为至今

还没有一个很统一的定义,相对主流的大致能被概括成 4 点:少量商品销售、

不限个别消费者、用于最终消费和可搭配服务,至于有铺与否、卖的究竟是

何种商品等,均不加以限制。

若要给每个行业加一个标签,零售业的是“决不墨守成规”,其几乎每时

每刻都在进步,并且这种进步所引发的变革经常会深刻改变我们现有的生活

方式。所以,不放过任何盈利机会的零售业,早已是数据创新的主战场。这

里举一个例子①,在美国 47 个州设有 1,330 家商店的美国塔吉特(Target)公司,

有一次在寄送孕妇用品打折券时引发了一位父亲的不满,他投诉塔吉特向其

20 岁的女儿推销不适用广告,可几周后,这位父亲却发现自己年轻的女儿的

确怀孕了。这是因为:塔吉特发现这个女孩突然改变了消费习惯,开始购买

不含人工香料的护肤露和沐浴液,由此推算出她已有孕,因而才会针对性地

推送孕妇用品打折信息。更厉害的是,塔吉特还总结出新妈妈们怀孕 10 月的

购买规律,依据女性消费者购买的商品,推算其孕期;再依照不同孕期,推

销合适的商品。

6.6.1 独特商业布局

1852 年,法国巴黎第一家廉价商店 Bon marche 的诞生,被学术界确认

为“现代零售业的第一次革命”,具有划时代意义。尽管以现在眼光看来,这

种革新十分有限,涉及内容无非是商品齐全、明码标价、退换保障和店堂豪

华装修等,但是对于当时来说,已是一个质的飞跃。

时过境迁,百货商场已是“昨日黄花”,但是对于一个城市而言,标志与

象征着现代商务核心的中心腹地实体购物商圈仍是有存在价值的,这就是所

谓的“吸引人气”。然而,当前无论何种级别的商圈,核心商圈(55~70%顾客)、

次级商圈(15~25%顾客)或是边缘商圈,商业布局基本雷同,消费者吸引力不

强。这是因为:传统的调查问卷方法,数据粒度、准确度和分析深度等都无

① http://kan.weibo.com/con/3522523241233771.

Page 148: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

148

法满足决策要求,严重制约了零售商对商圈周边的人群分布、产业结构、交

通状况、同行竞争和消费偏好等各种因素的了解和处理能力,导致一贯倾向

于依赖建筑设计师规划。

因而,独特商业布局是少不了数据创新的,没有分析就没有答案。例如,

某一品牌同时入驻两个不同级别商圈时,可能会因商圈差异的地租限制影响

装修细节,从而无法彰显品牌精神,此时亟需获悉消费者偏好,适时采取差

异化的主副品牌策略。又如,中心地段商圈通常建筑老化,在不“伤筋动骨”

的条件下进行改造难度很大,若要增加餐饮则需加装排污管道和隔油池,若

要补充游乐设施或影院则需另布输电线路,在转型前应了解消费者需求,引

入与同一商圈其他商场有区别、改动又少的特色项目。再如,尽管商圈一般

在设计阶段就已完成了关键品牌的招商,或者有一批“铁杆”品牌跟随,但

是商业布局中内部动线(消费者逛店的路线)与磁力点(吸引消费者的品牌)的

些许差异,同样能对诸如家庭式、休闲式等不同消费群体产生吸引力。

6.6.2 例:Pixazza 展示架

2009 年,有一个名字超难念的网络工具开始风靡并被很多风投看好,它

叫作 Pixazza①,这些投资人有 Google, August Capital, Ron Conway 等,把它

提供的一段 JavaScript 代码贴在首页,就能让该网站上所有图片自动变成零

售商的广告,自动“以图找图”。例如,在新闻网站看到某个明星或政客穿的

一双鞋,点一下鞋旁边的黄色标签就可以买到类似的,而所有参与把这张图

片推送给消费者的人都参与抽成。

其实,Pixazza 的图搜索技术并不好,图片只能粗浅匹配,需要依靠一些

被称为“精品专家”的热心网民进行人工识别,当然这些“专家”也参与抽

成。有趣的是,每位“专家”抽成的还不止于此一张图片,Pixazza 判断是否

有类似,若有,专家照样可以抽成。话又说回来,Pixazza 的图搜索技术也不

必太好,这并不是在帮助消费者购物,而是在帮助零售商推销,若搜索不准,

消费者不买,谁都没有损失。

Pixazza 展示架在数据创新的同时,更多的是进行了商业模式创新,大致

① http://mr6cc.blog.163.com/blog/static/77030627200922610502619.

Page 149: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

149

有两点:一是将网购由“量化消费”变成“质化消费”,不是看哪个零售商的

商品谁便宜,而是看哪家图片拍得令人感动,比如若是名牌包就要有质感、

若是食物就有色相,在帮商家推销商品的同时,还带动了一条靠图库赚钱产

业链;二是仍旧采取网络大军“众包”,正所谓“愚公移山”,共同创造价值,

让广告真正成为“众人自发喜爱的产品”。

6.7 房地产业

相对于老牌发达国家,新兴经济体对房地产业的感受有些特别,通常是

介乎爱恨之间的。一方面,这种以土地和建筑物为经营对象的行业,典型的

先导性、基础性和带动性等特征及其保值增值效应,既是国家政局稳定的保

障,又能拉动国民经济的增长;另一方面,上世纪以来他国多轮房地产问题,

特别是 90 年代初期日本房地产泡沫破裂和 2008 年美国次贷危机,所引发旷

日弥久的金融动荡,犹如魔音穿耳,令人惶惶不安。因而,包括中国、俄罗

斯和印度等在内的新兴经济体国家近年来均在极力调整房地产业发展,使之

能尽快恢复正常,以期再次增强整体经济的活力。

从长远来看,不论国家当下如何调控,房地产业是不会被放弃的。在未

来,房地产业企业需汲取教训、自我转变,除了适时运用数据创新,还应改

变原本一味新建商品住房的观念,将视线转移到规划与建造新型产业用房上

来,构建一种能积聚人才、凸显产业集聚效应宜居宜业、生态多元的发展模

式。

6.7.1 助力城镇化

城镇化是人类进入工业社会后的一种社会发展现象,内涵是经济的工业

化和人口的城市化,衡量标准一般是“城镇化率超过 50%”①。例如:工业

革命发源地的英国是世界上最早实现城镇化的国家,即在 1850 年城镇化率超

过了 50%[71],当时正值鼎盛的维多利亚时代;同样,美国和同为移民国家的

加拿大,则分别在 1918 年和 1921 年。当前,中国的城镇化正徘徊于此标准

① http://www.china-up.com/attached/lihao/09.pdf.

Page 150: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

150

边缘①,还有较长的路要走;然而,后工业时代,作为一种机遇,房地产业

不应过于乐观,城镇化需要并不是只会“多造房子、多修路”②的房地产业,

而是具有数据创新的房地产业,这才是我们“后发优势”之所在。

在城镇化过程中,房地产业企业的数据创新,对其自身至少能有三大好

处。首先,帮助预判现有城镇化建设项目,有些项目涉及的是诸如老镇动迁、

街道改造或市政建设,需要在提前在城镇空间布局、资源利用和改善生态环

境等上下功夫,以微调项目实施策略或改进企业发展路径。其次,能在城镇

化项目推进过程中采用数据验证、实现精准管理,比如已有较多房地产企业

采用了美国曼哈顿软件(Manhattan Software)公司的大数据分析解决方案减低

成本、获得即时投资回报率,如获悉某区域房产历史趋势、提高风险度量的

精确性和改善用户决策过程等。最后,智能协助销售、改善城镇化过程中的

房屋空置率问题,目前碧桂园已在探索新的房地产数据营销方法③,2013 年

3 月,其与腾讯合作,挖掘了广东省 6,300 万 QQ 活跃用户的六度强关系,以

实现“全民推介买房计划”。

6.7.2 慧极物业

有种通行观点:物业管理(property management)是房地产业在消费领域的

一项服务延伸,这相当确切。在房地产项目初始的市场定位阶段,潜在的物

业管理需求就已被确定了;反过来,一个已有好的物业管理会为未来房地产

项目加分。

在以前,一些不良房地产企业在楼盘销磬之后会关闭该项目的承建子公

司,其后所有房屋修缮、设施维护问题都扔给物业管理企业,若干大型维修

经常引起业主与物业管理企业之间的纠纷,进而引发的治安事件。现在,很

多房地产企业开始认识到“智慧”物业的商机,成都地产商花样年控股集团

有限公司董事局主席兼首席执行官潘军称,已开始下注物业大数据④,这将

是该集团未来的重点发展方向,2012 年花样年社区服务平台用户 400 万、创

① http://economy.caixin.com/2012-05-09/100388410.html.

② http://weihai.focus.cn/news/2013-09-23/4025809.html.

③ http://gd.qq.com/a/20130309/000053.htm.

④ http://epaper.21cbh.com/html/2013-06/10/content_67973.htm?div=-1.

Page 151: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

151

造利润 5,000 万元。

那么,智慧物业能做什么呢?小到“柴米油盐酱醋茶”的邻里关系,大

到治安稳定,是一种优质社区服务的体现、政府社区功能的延续。例如,协

助家庭节能管理,如类似 WaterSmart 和 Opower 等将居民用水、用电数据可

视化并提供整套家居节约方案;又如,提供防盗服务,如使用由 iPod 设计者

托尼•法戴尔(Tony Fadell)创办的 Nest 公司所提供的智能温控器,在动态调整

屋内温度之余,用来进行温度感应入侵检测;再如,远程看护无人照看的幼

儿或老人,如采用 Micello 等室内定位或导航,防止高坠、急病等意外发生。

其他的还有,进行小区内数据安防,改变当前各种安防措施需要在视频室内

人工监控的现状,减轻物业或安防管理人员的工作负担,解决错看、漏看或

来不及看等常见困扰,实现视频图像快速检索、模糊查找、精准定位和智能

化预警。

6.7.3 例:盛世下的“鬼域空城”

早在2007年,香港《明报》记者何丽玲就以“城市的萎缩”(Shrinking Cities)

为题撰写了一篇评论报道称①,尽管当今世界科技发达,但繁华表面下隐藏

了许多一触即发的危机,到本世纪末全球每 6 个城市中将会有 1 个沦为“鬼

域空城”,并且断言这些枯城之中必有美国密歇根州最大城市底特律。

其实,这种城市“萎缩”现象的实质是人口结构失衡问题,其成因或是

生育率低,如日本成百小城市因此出现的儿科、产科医生缺乏问题;或是重

工业转型所导致的资本外流、职位缺失,如以纺织工业起家的英国曼彻斯特;

又或是政治影响,如 1989 年柏林围墙被推倒后原东德城市的荒废;再有就是

天灾重挫,如 2005 年被卡特琳娜飓风突袭的美国新奥尔良,等等。

类似这种城市人口分布不合理状况,是需要特别警惕的。在未来的中国

城镇化建设和房地产业发展中,人口这一变数不应被忽略。除了房地产业自

身理念转变与数据创新外,政府应在国家层面针对人口相关数据进行挖掘,

找到人口变动的各种相关因素,同时并仅不限于房地产数据分析。

① http://file.pokok.edu.hk/~geog/data.

Page 152: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

152

6.8 旅游业

旅游①,对应的英文单词是“tourism”,其中前缀“tour-”源于拉丁语的

“tornare”或希腊语的“tornos”,有“围绕一个轴心走”的意思,在现代英语中

演变为“顺序”;而后缀“-ism”则表示“一个特定行为或过程”,连起来就是

说,旅游是一种有目的地的往复行程。因而,旅游业是以旅游资源为凭据、

旅游设施为条件吸引旅游者参与的行业。

根据旅游业通识,与之相关的行业有 5 类 11 种,这些包括:智业类的旅

行策划,游憩类的景点、游乐设施、康疗区、体育场馆或其他主题公园,接

待类的餐饮、住宿或会展,营销类的旅行社,以及交通类的客运服务等。由

此,旅游业带动消费的本质是引领与之相关行业的共同发展,所以这两者若

间或有数据创新则应是共融共通的。

6.8.1 行程策划

学术界的旅游研究关注到的大多是可持续发展,内容主要有:旅游可持

续发展战略分析、系统论与旅游可持续发展、旅游可持续发展指标体系构建

及评价、利益相关群体分析等。其中,涉及环境承载力、价值伦理等方面较

多地使用到由加拿大生态经济学家威廉·里斯(William Rees)在 1992 年提出

的生态足迹(ecological footprint),这是一种以生产性土地或水域面积表示的

定量计算方法,即②:“特定数量人群按照某一种生活方式所消费的,应由自

然生态系统提供的各种商品和服务,以及在这一过程中所产生的,应由自然

生态系统消纳的废弃物”。这些理论性研究对应到旅游业经营实际,具体体现

就是行程策划的合理性,一个好的旅游行程能直接减少旅游者对区域旅游资

源、旅游设施的占用与耗费,间接消除旅游业的多种负面效应。

一般来说,传统旅行社或在线旅游网站的多数已有旅游产品的行程策划

均是较为合理的。然而,这些产品,要么是受限于导游、领队及其同团团友

的“跟团赶景点”游,要么是“升级版”受限于菜单式选择的散客行,现在

都很难满足旅游者的个性化需求。因而,很多旅游者开始尝试自助策划行程。

① http://baike.baidu.com/view/48425.htm.

② http://baike.baidu.com/view/51075.htm.

Page 153: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

153

需要指出的是,这些自信的旅游者很难了解旅游目的地的自然生态,也不擅

长预估其环境承载力,换句话说就是,这种行程策划本身就带有一定的破坏

性,比如近期就有网友批评过一个“西沙海鲜之旅”的帖子①,帖主所参加

的是某个户外俱乐部组织的自由行,帖中有大量随意触摸海洋生物的举动,

连鹦鹉螺、砗磲贝等被列入《濒危野生动植物种国际公约》②的国家一级保

护动物都被带走甚至裹腹。

当然,这并非意味着要禁止个性化旅游,只是在说明一个合理的行程策

划是需要数据创新的,是在对以往有较高价值旅行攻略数据(如旅游线路、景

观介绍等)挖掘上的策划,或者是基于原有旅行计划个性化改进的策划,又或

者是符合旅游者偏好的策划,同时需提供相应旅行技巧。

6.8.2 景点推送

根据 2012 年 8 月科技博客 TechCrunch 的一篇报道③,由 Expedia 前工程

师费德里克·拉隆德(Frederic Lalonde)和朱斯特·欧沃科克(Joost Ouwerkerk)

分别担任首席执行官和产品总监的 Hopper,在秘密筹建了 5 年后,宣布业已

完成 B 轮 1,200 万美元的融资谈判,投资方为 OMERS Ventures、Brightspark

Ventures,再加上之前在 2008 年和 2011 年获得的,目前融资总额已到达 2,200

万美元。那 Hopper 是做什么的呢?其官方网站自述有点隐晦④,有人揣测是

做旅游搜索引擎,然则不然,实质是“景点推送”。

同样,Jetpac⑤和 Tagwhat⑥也在做类似工作。Jetpac 专注于旅游图片,这

些图片来源于 Facebook,目前数量约有 7.5 亿张,使用一些算法去识别这些

图片被上传时的位置信息或者以相似性找到标志性建筑物等,并筛选出其中

10%较好的推送给用户,以吸引旅游者去该景点;而 Tagwhat 则致力于旅行

① http://www.17you.com/portal.php?mod=view&aid=20748.

② 《濒危野生动植物种国际贸易公约》英文全称是 Convention on International Trade in

Endangered Species of Wild Fauna and Flora。

http://techcrunch.com/2012/08/15/founded-by-former-expedia-engineers-stealthy-travel-startup

-hopper-closes-12-million-series-b.

④ 原文:Our mission is to bring the joy and inspiration back to travel planning.

⑤ http://www.36kr.com/p/137238.html.

⑥ http://www.36kr.com/p/155826.html.

Page 154: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

154

故事,让旅游者“不再错过有故事的地方”,甚至能基于用户地理位置当自动

推送。

这些创意借以启发国内的一些旅游业龙头企业,一味拼价格、守着传统

“鼠标(mouse)+水泥(cement)”的 B2C 模式不思转型,而不采取数据服务,

将只能陷于市场被不断蚕食直至完全攫取的尴尬境地。

6.8.3 美食推荐

被排在旅游六要素①之首的“吃”,很多时候是吸引游客的重要因素,比

如在国内,就有北京的炸酱面、天津的狗不理包子、西安的肉夹馍、成都的

麻婆豆腐、南京的咸水鸭和云南的过桥米线等。然而,每个人有自己不同的

美食偏好或饮食习惯的,正如西方那句谚语:“You are what you eat.”,即人

如其食,就是说这种偏好或习惯是明显带有自身行为特征的。应当看到,数

据挖掘能帮助我们易于获取此类特征并实现美食推荐,即“You analyze what

you eat.”②。

一般来说,除了食材、食谱和食品等数据外,基于数据创新的美食推荐

最为关键的是需要结合用户行为数据(user behavior data),这些数据将涵盖用

户在现有美食或订餐网站上发生的所有行为,如浏览、搜索、打分、点评、

加入购物车、删除购物车、维护期待列表(wish list)、参与团购、使用减价券

和退货等,另外有一些在第三方网站上的行为,如比价、看相关评测、参与

讨论、社交媒体上的交流、与好友互动等。

在国外,在食物消费上已有很多数据应用。例如,FoodGenius 和 Gojee

比较关注食材搭配,FoodGenius 能从掌握了的 2,200 多家餐厅菜单数据中找

到对应的食材组成,为上游供货商和消费者分别提供数据服务;Gojee 则使

用数据分析为消费者推荐食谱搭配手头食材、顺带销售辅料。又如,Fooducate,

FoodSmart, Yelp 等较侧重于食品购买,有的能让消费者扫描条码及时获知成

分并获得营养学建议,有的能推荐哪里能买到更便宜的,还有的能告知若吃

① 旅游六要素,分别是:“吃、住、行、游、购、娱”。

http://smartdatacollective.com/kathryn1723/109101/how-big-data-changing-food-consumption.

Page 155: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

155

掉这些食物后该如何消耗热量等、以促进关联消费。另外,还有餐厅配套服

务的,如提供订餐的 Opentable、提供餐厅外排号的 NoWait 和提供餐厅评价

的 Zagat 等。

6.8.4 住宿竞价

对于消费者而言,现在的旅游住宿预订选择性很大,因为已有很多预订

网站参与到旅游服务中来,但是由于不同预订网站相同酒店的价格不一,再

加上各种隐含税费,旅游者往往很难决断,根据 Atmosphere Research 在 2012

年的一篇调查报告①,有 95%的旅客在正式预订酒店前访问的相关网站数平

均超过 22 个。

于是,有些预订网站开始使用别的招数,如 Getaroom, Orbitz 等使用隐

藏竞价的手段,既保护了酒店品牌和分销渠道,又达到了客户细分的目的;

又如国内由天海路网络推出的一款手机应用——“今夜酒店特价”,创新的商

业模式受到《福布斯》、《商界》和《环球企业家》等的交口称誉,其使用的

是“卖面包”的折扣逻辑,每天晚上 6 点以后合作酒店会把一些卖不掉的空

房间以超低折扣放到“今夜酒店特价”平台上,既为酒店收回成本、消费者

得到实惠,自己还能赚到佣金。当然,这都还没有使用到数据创新。

目前,真正基于大数据的住宿竞价,主要有 DealAngel, Guestmob,

Tripbirds 等。DealAngel 提供的是一款被称为“酒店折扣”的搜索引擎,比

如能找到一些与平时售价不同的房间,帮助有旅行计划的用户掌握这些酒店

的特定日期,并根据算法进行酒店排名。Guestmob 是在 PriceLine 模式基础

上着重帮助酒店解决“折扣提供时间”这一问题,具体预订的过程是:用户

先输入旅行目的地、入住时间和房型,根据自身需要、选择对应的分组,

Guestmob 根据算法给出这一分组中酒店的订金价格,用户完成支付,至于具

体入住分组内的哪家酒店,Guestmob 另外提前告知。Tripbirds 则挖掘图片分

享网站 Instagram,将酒店房间的真实模样而非官方宣传图提供给用户。

当然,旅行住宿的根本问题并不是酒店的价格底线是多少,而是真正找

到一家便宜、体面又舒适的,因而未来还将会有很多新的数据创新。

① http://www.iata.org/whatwedo/stb/Documents/future-airline-distribution-report.pdf.

Page 156: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

156

6.8.5 例:经不起推敲的预统计

自 2000 年强制性休假制度实施起,国内的旅游统计就一直被诟病。在

2005 年 5 月 8 日的新华网上,有一篇名为“黄金周旅游统计大玩‘数字游戏’”

的报道称,很多地方长假过了不到 12 小时,接待人次和旅游收入等数字就被

“统计”出来了。一时间反响很大,很多网友认为各省发布的黄金周旅游统

计“动作神速”,人均消费额度也“大同小异”,实在是“难以经得起推敲”。

同样,2012 年 7 月,全国假日旅游部际协调会议办公室(即“假日办”)公开

发布了一份“2012 年春节黄金周旅游统计报告”称,春节期间全国共接待游

客 1.76 亿人次,旅游收入 1014 亿元;然而,前瞻产业研究院的监测数据是:

春节期间实际的旅游总接待人数应为 2.5 亿人次,总收入为 1380 亿元,分别

超过“假日办”报告的 58%与 36%。

在国内旅游统计中,“纵向不能加、横向不可比”的情况早已存在多年,

比如 2010 年,国家旅游局公布的全国国内旅游人数是 21.03 亿人次,国内旅

游收入 1.26万亿元;而各省区市旅游局公布的数据相加,国内旅游人数是 46.7

亿人次,国内旅游收入是 4.2 万亿元,分别相当于全国数据的 2.2 倍和 3.3 倍。

这种“地方之和大于全国数据”的原因,已有人进行了解释①,首先是统计

标准的不准确、不合理,比如《中国旅游统计年鉴》规定“国内一日游游客:

指国内居民离开惯常居住地 10 公里以上,出游时间超过 6 个小时,不足 24

个小时,并未在境内其他地方的旅游住宿设施过夜的国内游客”,显然这一标

准过于宽泛,而国际标准则是“离开惯常居住地 6 小时以上,10 公里以外,

所从事的活动不是为了获取报酬”;其次是统计方法的不规范、不统一,国内

游客统计 3 种渠道:酒店住客人数、景点游客人数和旅行社接待人数,把三

者合起来统计,必然发生 1 个游客被计算为多个游客的重复统计。

因而,如何让旅游统计“准确”起来,是值得我们深思的。

6.9 教育培训业

以行业视角,教育培训业同样是以盈利为目的的。《浙商》杂志记者胥晓

① http://blog.sina.com.cn/s/blog_60ca557001015i2n.html.

Page 157: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

157

莺曾对其如此描述,该行业“毛利率 54%,年增长率 30%,不受经济周期波

动影响同时现金流充裕”①。诚然,家庭消费向教育培训倾斜是全球一致的

普遍趋势,有的是子女教育,有的是再就业培训,还有的则是生活技能,涉

及婴幼儿、少儿、青壮年和老人,涵盖学前教育、基础教育、职业培训、兴

趣拓展和素质训练。因而,这一行业市场异常庞大,号称规模可达到“6,000

亿”。

借助信息化的东风,基于互联网的教育培训同样增长势头迅猛,全球市

场规模在短短 6 年间翻了超过两番,“从 2004 年的 230 亿美元已增长到 2010

年的 1000 亿美元”。然而,这一领域当前仍处于“早期”无序竞争状态,创

新少、投机成本小,具体表现在:一是教学力量薄弱、师资匮乏和被资本操

控现象严重;二是即便是一些已占有一定市场份额行业巨头,所谓的创新也

仅仅是简单地把课件从“线下搬到线上”。例如,成立于 2001 年的环球雅思,

仅靠“课程上线、卖视频”,就在 2006 年拉到软银赛富数亿投资并于 2010

年成功上市,戏剧性的是,美国纳斯达克上市没几天(2011 年),居然被英国

培生集团(Pearson Group)看中,花重金 18.67 亿元人民币收购并私有化了②。

由此,如何开展突破性创新、快速切入分享这块“大蛋糕”,并间接成为

现有国家教育改革的一种外在驱动力,是值得我们探讨的。

6.9.1 知识评判新机制

评判学生知识获得或掌握与否,是衡量教育优劣的重要尺度。通常的方

法和手段有考试、考核或学术成果评价等。特别在学术成果评判上,很多国

家或地区的学术界,或多或少存在偏重论文发表或著作出版的数量而轻质量

的状况,并由此催生了一批“科学”期刊。

近期,哈佛大学的约翰·博安农(John Bohannon)在《科学》杂志上发表

了一篇名为“谁在害怕同行评议?”(Who’s Afraid of Peer Review?)的文章③,

对这一现象犀利地讽刺了一下。作为一名生物学家,博安农为这些科学期刊

① http://d.g.wanfangdata.com.cn/Periodical_zhes201212034.aspx.

② http://tech.sina.com.cn/i/2011-11-21/15256358841.shtml.

③ http://www.sciencemag.org/content/342/6154/60.full.

Page 158: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

158

设计了一个“假”论文陷阱,将一篇内容是“某种苔藓提取物能抑制癌细胞

生长”的论文粗制滥造地扩散成数百篇假论文,比如不同化学物质、苔藓和

癌细胞进行排列组合,又如虚构论文的作者和单位,再如使用 Google 翻译调

整语句、避免编辑对英语行文过于流畅产生怀疑等,然后投给了 304 个期刊。

截止这篇文章发表,上述这些期刊中共有 157 家接受、98 家加拒绝,还有 20

家仍在审稿,“假”论文平均接受时间 40 天、拒绝时间 24 天,如图 6.1 所示,

其中印度、日本期刊“受骗者”众。

图 6.1 约翰•博安农的“假”论文投稿与发表路线

由此可见,使用传统的知识评判机制并不合理。知识,一般而言除了少

量能被编码化外,绝大部分是隐性的,单纯依靠小数据统计的方法进行精确

定量进行评判本就可行性不大。所以,需要有更大量的数据和数据创新来建

立新的知识评判机制来应对教育变革。比方说,大数据能助力人才测评,从

履历潜在关联找到一些简历上没有写上去的隐藏信息,如美国的 Hay Group

就是这方面的行家。

6.9.2 技术获取新格局

人的知识是很容易陈旧的。根据美国较早前进行的一些持续性调查①,

① 数据源:http://d.wanfangdata.com.cn/periodical_tsgxk199905021.aspx.

Page 159: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

159

1960 年的大学毕业生,在校所学知识的陈旧率 5 年后是 40%,10 年后为 65%,

15 年后为 75%;而 1976 年的大学毕业生,在校所学知识的陈旧率,4 年后

就达到了 50%,10 年后已是 100%;90 年代的大学生,在校所学知识只占一

生所学知识的 10~20%,其余的 80~90%需要在工作后通过各种学习方式来充

实和更新。

如今,已很多人能意识到继续教育的重要性,在工作之余,或选择学历

提升,或选择技能培训,或致力于积累研究成果参加较高层次职称评定。然

而,诸如此类这些教育培训终究还是“填鸭式”的,有相似的套路,如必修

学分、有限课程和例行考试等。

那么,新的技术获取格局是什么样的呢?秋菠网创始人陈威在《钛媒体》

(tmtpost.com)上的一篇微博投稿①,很好地回答了这一问题,大致有 10 方面

特质,即:终身培训、个性化因材施教、增值收费、实时知识评判、课程按

需选择、课件众包编辑、社交发现、内容沉淀、沉浸式学习和随时随地。需

要指出的是,这些特质的实施关键点都是需要数据创新的,比如,终身培训

或个性化因材施教,应有受培训者的行为模式挖掘;又如,社区发现和内容

沉淀分属图谱挖掘和文本语义挖掘范畴;等等。

6.9.3 例:MOOC

有人将 2012 年称为“MOOC 年”,可见慕课(Massive Open Online Courses)

的影响力。这种风靡一时的全球教育模式原型是由犹他州州立大学的大卫·怀

利(David Wiley)在 2007 年 9 月创立的,现有 Coursera, Udacity, edX 三大教育

机构抵足鼎立②,前两个是由斯坦福建立的,最后一个则受资助于哈佛和

MIT(各 6,000 万美元),目前全球已有六七十所顶级高校分别参与这 3 个机构

之中,包括中国的北大和清华(edX)、复旦和交大(Coursera);与此同时,一

些英美非知名大学开始陷于持续的“恐慌”③中,甚至于英国前首相顾问、

① http://www.tmtpost.com/68589.html.

② http://www.36kr.com/p/170352.html.

③ 2012 年 10 月 18 日,《时代周刊》记者阿曼达•里普利(Amanda Ripley)的一篇报道《大

学已死。大学永存!》(College Is Dead. Long Live College!)

http://nation.time.com/2012/10/18/college-is-dead-long-live-college.

Page 160: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

160

培生集团首席教育顾问迈克尔·巴伯(Michael Barber)爵士说①,如果 10 年之

内英国没有几所大学因此而关门,他会感觉“非常吃惊”。

与以往的视频上线相比,MOOC 的颠覆性在于②:没有与既得利益者争

抢客户,有一个完整的教学模式,“有参与、有反馈、有作业、有讨论、有评

价、有考试,甚至有证书”。

6.10 居民服务业

服务业,是英国经济学家艾伦•费希尔(Allan Fisher)1935 年在《进步与安

全的冲突》(The Clash of Progress and Security)一书中首先提出来的,这是一

个涵盖范围很广的行业,一般认为服务产品具有非实物性、不可储存性和生

产消费同时性等特征③。

服务业有很多分类方法,长期以来都未形成统一标准,这里参考国民经

济行业分类,暂以服务对象进行划分,大致有居民服务业、商务服务业和技

术服务业 3 种。其中:居民服务,集中于居民日常生活基本活动,如洗衣、

理发、家政服务、家电维修、美容保健、废旧物资回收、职业招聘、房产中

介等;商业服务,集中于现代经济社会活动,如法律、会计审计税务咨询、

市场研究及舆论调查、商业和管理咨询等;技术服务业,则集中于科技技术

活动,如与科学研究和试验发展有关的、有助于科技知识的产生、传播及应

用的等。

应当看到,无论服务业如何划分,均是需要高人力资本含量和高技术含

量的,数据创新能帮助这个传统依赖于人力资源的行业将以往“个人经验”

升级为“群体智慧”。

6.10.1 养生新科学

健康、长寿俱是人们梦寐以求的。现代人快节奏的生活方式,再加之工

业化污染、食品农药残留或化学剂滥用等问题,或多或少有一些疲倦、四肢

① http://www.edu.cn/li_lun_yj_1652/20130506/t20130506_938989.shtml.

② http://www.36kr.com/p/201534.html.

③ http://baike.baidu.com/view/154003.htm.

Page 161: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

161

无力、肩膀疼痛、头晕眼花、食欲不振等亚健康症状。因而,颐养生命、增

强体质、预防疾病,以达到延年益寿的养生活动,被越来越多的人所采信。

但是如何养生却众说纷纭,现代医学主张“生命在于运动”、中医则有“不妄

作劳”的说法,有的说需内补、有的讲应外调、还有的建议辟谷,甚至出现

了“喝绿豆汤治百病”、“生吃泥鳅治愈渐冻人病”,种种真伪论调之中,“神

医”与“大师”遍地走,医疗与保健混淆、理性与常识消散,还不乏有商家

打着养生旗号赚得盘满钵满的。

客观地说,科学养生至少应具备 3 方面内容:首先应是初筛确诊,一般

来说相似的症状不一定有相同的病症,以关节酸痛为例,原因就有很多,如

肾虚、关节劳损、旧伤复发、骨关节退行性疾病、骨质疏松、颈椎或腰椎疾

病、痛风和其他风湿性疾病等,大数据能帮助进行初步筛选从而减轻医生的

工作量,例如,近期,哈尔滨工业大学社会网络与数据挖掘实验室一项“利

用社交媒体数据挖掘识别抑郁倾向人群”的研究成果在网络上引发热议①,

其采用的数据来源于新浪微博,通过构建了一个抑郁倾向识别模型,筛选出

约 200 名重度抑郁症患者,经医学机构确认准确度可达 83%,这部分人群发

微博通常在 23 点左右,夜间活跃度比普通用户高出约 30%,关键词很多为:

“死、抑郁症、生命、痛苦、自杀”,其中有 60%为女性。其次是挖掘中医

文献或西医药典排除“伪”养生,这些文献和药典通常来源于医疗实践的经

验,使用文本挖掘能帮助我们“去伪存真”。最后,最为关键的还是个性化保

健,养生服务的核心并非产品推销,而是满足不同消费者的个性化需求。

6.10.2 养老新模式

以 1982 年维也纳老龄问题世界大会(World Assembly on Aging,Vienna)划

分标准②,60 岁及以上老年人口占总人口比例超过 7%,就意味着一个国家或

地区进入老龄化。根据2013年2月发布的我国第一部老龄事业发展蓝皮书《中

国老龄事业发展报告(2013)》③,截止 2012 年底,我国老龄人口数量已达到

① http://www.thebigdata.cn/YingYongAnLi/6152.html.

② http://baike.baidu.com/view/109749.htm?fromId=358103.

③ http://news.xinhuanet.com/2013-02/27/c_114823442.htm.

Page 162: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

162

1.94 亿,占总人口的 14.3%。特别地,老龄化现象在上海尤为严重①,截至

2012 年 12 月 31 日,本市户籍 60 岁及以上老年人增至 367.32 万人,占全市

总人口的 25.7%。

国内外现有养老模式大致有 20 多种,分别是②:适合喜欢热闹单身老人

的养老院、养老公寓等多种的机构养老或租房入院养老;符合中国传统在家

颐养天年的居家养老、钟点养老、日间照料或招租养老;家庭居住与社会化

上门服务相结合的居家式社区养老、小型家庭养老或集中养老;适合生命韧

度不减、喜欢旅游的乡村养老、异地养老、基地养老或旅游养老;适合手头

有房、无子女或者不愿意将房产留给子女老人的以房养老、售后回租养老、

大房换小房养老、合居养老、遗赠扶养或家内售房养老;适合城市特困和孤

寡老人的政府货币化养老等。

以上这些养老模式大多仅从老年人经济角度考虑其生活、医疗、居住或

者其他硬件缺陷或隐患,并没有涉及精神抚恤问题。需要知道,老年人的精

神饥渴是不容被忽视的,数据创新能在这方面改善现有养老模式。例如,英

特尔(Intel)和苹果已设计出能嵌入鞋跟的传感器,基于这些数据的获取和分析

用户的“运动指数”,帮助辅助监护老年人,特别是阿尔茨海默氏病患者,而

不是完全限制其自由;又如,挖掘老年人精神个性化需求,提供书法、绘画

或舞蹈等符合其兴趣的老年大学课程;再如,分析辖区内老年人健康档案数

据,提供“治未病”或提供子女低探视预警等。

6.10.3 例:琐碎服务

以居民日常生活需求为出发点的居民服务是繁杂零星的,然而正如混沌

理论之父爱德华·罗伦兹(Edward Lorenz)所指出的那样,“一只亚马逊丛林中

的蝴蝶,偶尔扇动几下翅膀,可能会引起飓风”,琐碎小事往往蕴含着大商机。

1.日程安排

现有的在线日程应用,如 iScrybe, Google Calendar 和 AnyDay.com 等,

除了工作备忘、事务管理外,大多支持离线访问。随着越来越多人习惯并逐

① http://www.gov.cn/jrzg/2013-03/21/content_2359525.htm.

② http://baike.baidu.com/view/6622875.htm.

Page 163: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

163

渐依赖这些应用来进行日常安排,未来的数据创新能替代戴维·艾伦(David

Allen)提出的“Getting Things Done”时间管理[72]中的“收集(collect)、处理

(process)和回顾(review)”后两个环节,比如评价“今天做得怎样”或者预测

“明天将做什么”。

2.家务指导

一些原先仅提供家务指导文章上传下载的网站,如 eHow.com,在累积

了数以百万计有用文章①后已开展内容挖掘工作,目前能做到有:找到当前

热门话题快速反应、推测用户需求有偿召集写手炮制等,未来的数据创新能

将需要(How-to)和被需要(Know-how)家务指导的人实施兴趣或关系图谱分

析,进而进行社交推荐。

3.代理招聘

“人气兴旺”一直是网络招聘的典型特征,如在 1999 年 HotJobs.com 就

拥有 30 多万人的个人简历。当前,很多招聘网站开始认识到其所拥有的人才

简历和企业简介这两类数据资源的重要性,注重向企业量身定制招聘广告、

向个人提供与之发展相匹配的个性化服务。然而,招聘信息与求职信息匹配

度低的状况始终存在,未来的数据创新将进一步改善此类状况,在企业发布

或个人投递前后由招聘网站作为代理方进行筛选和过滤。

6.11 商务服务业

6.11.1 法律服务:抢人“饭碗”的算法师

在未来的法律服务行业,有专业水准、能从“客观”数据中挖掘真相的

算法师将会“抢夺”4 种人的“饭碗”,分别是:调查取证的政法人员或律师、

出庭作证的专家证人、案件执行的司法人员和梳理案例的法务人员。

在调查取证阶段,一般政法人员的取证行为是强制性的,律师的活动是

带有访问性质的。同时,律师调查所取得的证据材料,必须经过法庭调查核

实,才能确定其证据效力。算法师在这一阶段参与,既能使用犯罪数据实施

取证,又能即时查证政法人员、律师双方取得的证据,从而减轻控辩双方和

① 据维基百科,eHow.com 文章数超过 337,000 篇,见 http://zh.wikipedia.org/wiki/EHow.

Page 164: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

164

法庭的工作量。

在出庭作证阶段,尽管不同法系中专家证人的称谓有些许差异,但在诉

讼中的作用是大致相仿的,即从某个学科领域专业知识出发为案件审理提供

一定的援助。算法师在这一阶段参与,既能以数据角度查证原有专家证人证

词,也能就案件数据挖掘结果给出专业意见或结论。

在案件执行阶段,当前困扰我国法院内部人员的是民事案件的“执行难”

问题,能被归纳为“被执行人难找、被执行财产难寻、协助执行人难求、应

执行财产难动”这 4 点。算法师在这一阶段参与,能从数据挖掘角度出发破

解案件执行难点,进而改善现有经济欺诈行为制裁不力、缺乏有效追究手段

等问题。

在案例梳理阶段,目前大量的案例数据仍处于被闲置、未提取和未使用

的状态,梳理这些数据能对预测案件结果、量化律师服务和透明法律流程等

提供帮助。算法师在这一阶段参与,能改善当前只能凭借大量的人力去整理

的状况,使用有效算法挖掘非结构化的法务档案数据,并使用更为友好的界

面呈现出来。例如①,Lex Machina 抓取了来自美国公共访问法院电子记录

(Public Access to Court Electronic Records)的所有数据,并使用斯坦福研发的

自然语言处理和法律文本分类,将案件、诉讼摘录、组织实体、专利和诉讼

结果分门别类,供用户进行审阅和搜索,另外还能用来衡量某个特定律师事

务所的整体胜诉率,或者评估某个案件诉讼或者和解的可能性等。

6.11.2 调研报告:改由算法打造的奢侈品

市场调研报告,有通用行业调研、专门产品调研等很多种,编制撰写一

般由专业研究公司完成,往往历时数月乃至数年,分为数据采集、资料归类、

观点提炼、报告撰写等 5 个步骤,最关键的是收费很贵,费用从数十万元到

上百万元不等,可以说是一种商务服务领域人工打造的“奢侈品”。

随着经济节奏的日益加快,调研需求越来越碎片化和实时化,传统人工

http://techcrunch.com/2012/07/26/know-your-enemy-lex-machina-raises-2-million-for-ip-litigat

ion-analytics.

Page 165: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

165

编撰的报告由于采用了调研问卷方式,其高昂的成本、漫长的周期和不可控

的数据质量,已令人难以忍受。目前,国外的 SurveyMonkey 和国内的问卷

网等①已开始着手将受访者样本库与外部大数据对接,进行算法自动分析。

由此,原先由一直由人工打造的“奢侈品”在未来将改由算法来打造,

不使用统计抽样、放弃样本分析这条“捷径”,而是采用更为完整的数据,使

得依据更准确、结论更妥贴、建议更精准。

6.11.3 专利资源:最大的公开技术数据源

根据相关文献②转载世界知识产权组织 (World Intellectual Property

Organisation, WIPO)的一项研究结论,世界上所有发明的 90~95%均能在专利

文件中找到③。由此可见,专利(patent)是全球最大的公开技术数据源,“若在

研发过程中利用已有专利还能节约 40%的研发费用和 60%的研发时间”④,

这是因为其涵盖了 6 方面情报⑤:本行业技术发展动态、现有技术所处的成

长阶段、竞争热点技术领域、竞争对手研发状态、新技术发展动态与可应用

领域,以及新产品的可能寿命、潜在市场与经济价值。

在以前,专利能被分析的主要是专利文献所附的参考引文,英美两国很

早就建立了专门的引文数据库,最早的是英国1995年的专利引文索引(Patents

Citation Index, PCI),其就是后来与美国科学情报社合作构建的数据回溯至

1963 年、收录全球 40 多个专利机构 1,800 万项专利德温特创新索引(Dervent

Innovations Index, DII)的前身。应当看到,这是一种重要的专利信息组织方法,

能通过对专利文献之间相互引证关系计量统计,洞察某一领域内的研发现状

和技术水平。

现在,已有越来越多的人意识到应使用数据挖掘工具和数据可视化手段

分析专利资源,如 Spore.Inc 的孢子图和矩阵图,见图 6.2;又如 Aureka 的地

① http://www.36kr.com/p/205104.html.

② http://www.itc.gov.hk/en/doc/consultation/consultation_paper/companies/P99.pdf.

③ 原文:According to World Intellectual Property Organisation, WIPO, 90% - 95% of world’s

inventions can be found in patented documents.

④ 原文:Furthermore, if patent documents are employed to assist R&D, the time required for

research can be shortened by up to 60%, and cost can be lowered as much as 40%.

⑤ http://wenku.baidu.com/view/ddd4ebeb551810a6f52486d9.html.

Page 166: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

166

形图和引证树,见图 6.2,以期直观发现某专利技术水平、行业发展轨迹等。

Page 167: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

167

图 6.2 Spore.Inc 孢子、矩阵两种专利可视化效果图

图 6.3 Aureka 的地形图和引证树两种专利可视化效果图

当然,挖掘除引文外其他专利数据还能得到别的有用信息和知识,这将

留待未来创新及产业化。

6.11.4 例:猎聘众包

在近期的虎嗅网(huxiu.com)上,有篇评论说“全民猎头悬赏模式是伪众

包”①,文章还援引欧美曾红极一时的猎聘众包三烈士 Zubka.com, H3.com,

Dayak.com 的惨痛经历,分析了国内“虚假繁荣必失败”的五大理由,并指

出这种猎聘模式,只是将众包概念“揉进”了一个过时算法②中。

这里需要指出的是,众包是没有“真伪”之分的,同时这也是一种很好

的基于互联网合作群策群力方法,然而在猎聘领域无法推广众包的根本原因

是数据问题,一方面猎头数据的不完全共享,另一方面数据还涉及隐私,数

① http://www.huxiu.com/article/14234/1.html.

② 即全民推荐奖金分配算法,大致思路是:假定有 4 个人(A, B, C, D)并以 A→B→C→D

的顺序依次传播招聘岗位信息,若 D 推荐的人选被录用,则 4 人可平分奖金。

Page 168: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

168

据的开发获取和隐私策略未健全且没有数据创新,自然无法成功。

6.12 技术服务业

6.12.1 气象数据服务

气象学(meteorology)是大气科学的一个分支,集中研究的是大气的天气

情况及其变化规律①,其现有观测研究、理论研究、数值模式研究和实验研

究等若干研究方法②的关键,是气象数据的获取、观测、管理和分析。因而,

这个技术行业所能提供的服务就是气象数据服务。

天气预报是气象数据服务中较为特殊的、兼有“垄断”特性。这是因为:

通常世界各国涉及气象的法律法规均有条款规定,除“国家各级气象主管部

门所属的气象台站”外,“其他任何组织或者个人不得向社会发布公众气象预

报和灾害性天气警报”。因而,现阶段若要切实提升气象预报产品质量,都需

气象部门自行转换数据研究思维,认识到及时采用数据挖掘这种新技术。

与国内许多企业只将视线集中于天气预报转播商机不同,美国一些公司

已从分析气象数据中取得了可量化的商业价值③。默克(Merck)集团使用气象

数据预测过敏源,针对每年不同的预测结果启动抗过敏新药研发计划,并与

沃尔玛合作联合推销;Sears Roebuck 通过实时监测气象数据进行仓库备货,

以便在暴风雪来临之前储备足够的吹雪机,或在高温来袭之时保证充足的空

调存货;AECOM 集团针对气象数据制定典型季节性商品的营销策略,如只

有在湿度较低情况下才使用的除静电剂喷雾等;DHL 快递已能根据气象数据

及时调整其所拥有的每天 3,000 架次货运航班的时刻表,甚至能精确到分钟;

利宝互助保险集团(Liberty Mutual Group)根据气象数据甄别虚假索赔,如关

联分析冰雹的大小、强度与房屋状态等数据,判断房屋受损是否与此次冰雹

事件有关等。

所以,气象数据服务并不仅限于天气预报,可以规避这种行业壁垒,专

门针对有特殊需求的用户,提供定时、定点、定量且精细化的专业数据产品。

① http://baike.baidu.com/subview/252398/11096872.htm?fromId=252398&from=rdtself.

② http://zh.wikipedia.org/气象学.

③ http://www.183read.com/magazine/article_190031.html.

Page 169: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

169

6.12.2 地震数据服务

作为地理科学的一个边缘学科,地震学(seismology)同样是以数据为研究

对象的,研究内容诸如找到固体地球介质中地震发生规律、地震波传播规律

和地震宏观后果等,涉及地震灾害研究和地震学应用两方面。

地震数据服务中,地震预测经常遭人诟病,究其原因是可靠性不高。作

为世界上最早能地震预测的国家,中国古人很早就发现了天体运行与地震的

关系①,并有震前“六端”征兆的说法,即:“一、井水本湛静无波,倏忽浑

如墨汁,泥渣上浮,势必地震。二、池沼之水,风吹成毂,行藻交萦,无端

泡沫上腾,若沸煎茶,使必地震。三、海面遇风,波浪高涌,奔腾萍溷,此

为常情;若风日晴和,台飓不作,海水忽然浇起,汹涌异常,使必地震。四、

夜半晦黑,天忽开朗,光明照耀,无异日中,使必地震。五、天晴日暖,碧

空清净,忽见黑云如缕,蜿如长蛇,横亘空际,久而不散,使必地震。六、

时值盛夏,酷热蒸腾,挥汗如雨,蓦觉清凉如受冰雪,冷气袭人,肌为之粟,

使必地震。”然而,现代地震研究反因传统模型方法的局限性侧重于反演和重

建,而非预测。另外,由于地震数据还涉及噪声问题,各种诸如压制面波的(如

频域高通滤波、FK 滤波或 K-L 滤波)、压制多次波的(如 Radon 变换或聚焦滤

波)、压制随机干扰的(如 F-X 滤波)等提高信噪比的数据清洗方法,或多或少

会对数据有不同程度的损伤,进而导致最终分析结果的大相径庭。

因此,地震数据服务不应仅使用地震数据。目前 Google 已与 Twitter 等

合作②,向全球研究者免费提供包括 2011 年 3 月 11 日“东日本大地震”、2013

年“中国四川雅安大地震”等在内的相关数据,如评估地震后 Twitter 上新闻

或社会媒体的作用,并以此来确定现有的信息流通方式在未来如何用以预测

地震等。

① 早在周幽王二年(公元前 780 年),太史伯阳父就认为“天地之气,不失其序”,“阳伏

而不能出,阴迫而不能烝(上升)”,于是有地震。

http://emergencyjournalism.net/the-3-11-japan-quake-looking-back-at-news-and-crowdsourcing

-on-media-coverage-map.

Page 170: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

170

6.12.3 例:预报高手在民间

生活中,人们常常会说“高手在民间”,专业技术服务也是如此,这就是

所谓的“人外有人,山外有山”。

《新京报》在 2013 年 4 月以“18 岁学生提前 3 天预测地震引争议”①为

题深度报道了林龙同学及其 49 人业余爱好者团队的地震预测,起因是林龙 4

月 14 日在其名为“预报中心”的微博上发布了“在云南东北昭通(余震)、

大理西南部和腾冲交界区域、和缅甸交界区域一线云南巧家县和四川宁南县

交界区域,72 小时内将发生为 5 级浅源地震”的预报信息,同时发布的还有

一张昆明地震监测点的原始数据图,而在随后的 4 月 17 日“大理州洱源县与

漾濞县交界发生 5.0 级的浅源地震。地震发生在大理州北部,与预测地点相

隔仅两百公里”。林龙在接受新京报记者采访时说,他们不需要专业仪器,主

要是电离层数据分析,共发布地震预报 800 多次,准确的有 500 多次。暂且

不论这种地震预报价值如何,其使用了数据分析就是一大进步。

同样,在 2011 年全国天灾预测研讨学术会议上,东北电网有限公司丰满

和白山发电厂的两名工作人员李文龙和李秀斌使用了历年数据分析、发表了

一篇“关于 2013 年辽河、第二松花江特大洪水的预测”的会议论文②,在文

章最后的综合预测结论中说“2013 年辽河、第一二松花江会发生大洪水,相

似于 1953 年,其中第二松花江白山水库年来水多四成,丰满水库年米水多八

成,年米水特丰。”尽管这篇论文发表的学术层次并不算高,但能在两年前预

测到已很不容易,确有“2013 年 8 月 14 日至 16 日,松花江支流第二松花江

流域降大到暴雨,第二松花江上游发生超 20 年一遇的大洪水,有 10 条支流

发生超警戒水位洪水,其中二道松花江及辉发河上游发生超历史实测记录洪

水”③。

由此,选择不同数据源、创新数据处理方法,是亟待学术界考量的。

① http://www.bjnews.com.cn/news/2013/04/20/259334.html.

② http://d.g.wanfangdata.com.cn/Conference_7447688.aspx.

③ http://epaper.bjnews.com.cn/html/2013-08/18/content_459628.htm?div=-1.

Page 171: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

171

6.13 文体娱乐业

文体娱乐业是“文化、体育和娱乐业”的简称,这个行业涵盖 5 部分:

第一部分是新闻和出版业,第二部分是广播、电视、电影和影视录音制作业,

第三部分涉及文化创作与表演和艺术表演、图书、档案馆等各类展馆,第四

部分是体育,第五部分包括室内外娱乐活动及其经纪代理。

数字媒体(digital media)的跨界融合,使文体娱乐这个行业已成为数据产

业中的一个典型代表,很多从业人员正在自觉或不自觉地进行数据创新。比

如,2006 年美国就已承认纸质发行量和电子阅读量具有同等价值;又如,大

数据分析正被运用到电影产业的各个环节;再如,网络游戏中的各种虚拟装

备或道具已被保险公司纳入新险种;等等。

6.13.1 艺人遴选

在以往,艺人遴选方式靠的是星探,后来的则是各类选秀节目。星探,

通常隶属或签约于一些演艺经纪公司,在大街上、人群中用专业眼光寻找有

明星潜质的“新秀”,林青霞、超级男孩(N’sync)、“小甜甜”布兰妮(Britney

Spears)等就是以此方式被发现而走红的明星;选秀节目,在世界范围内已有

十多年的历史,较为著名的是由被誉为选秀之父的西蒙·考威尔(Simon

Cowell)创办、被 FOX 引入美国并创下收视奇迹的 American Idol①,这个节目

第一季就发掘了荣膺第48届格莱美大奖的歌后凯莉·克莱森(Kelly Clarkson)。

当然,体育人才发掘也有类似,总之大多依赖于人的直觉判断。

2011 年,以一个棒球手数据遴选真实案例写就的《点求成金》(Moneyball)

被美国《财富》杂志评为 75 本商业必读书之一,并被认为其是逆向投资经典

著作,在书中“棒球星探们在统计学家面前相形见绌——直觉的判断被迫让

位于精准的数据分析”[1]。尽管这个 2002 年的案例所使用的数据分析方法有

些粗浅,但仍不失是一种颇具公正的新方法。

目前,美国国家篮球协会 NBA 约有 20 个球队的教练开始使用 IBM 所提

供的数据挖掘工具 Advanced Scout 实施临场战术调整,他们让球员们穿上能

① http://www.americanidol.com.

Page 172: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

172

监测心跳或呼吸等各项身体指标、采样在运动场上的速度或跑动距离等数据

的专业运动类穿戴设备,分析先发阵容中的弊端,临时选择全场紧逼、交叉

扯动或快速抢断等战术布局,并在事后对运动员制定个性化的训练和恢复计

划,例如,若发现本队球员在与对方球员在对抗时有犯规记录,教练能在双

方“头碰头”的瞬间拆解接触动作,以设计合理的防守策略。同样,美国国

家曲棍球联盟也已开发出自己的数据挖掘应用 NHL-ICE,以便能让教练、广

播员、新闻记者和球迷实时获得其挖掘结果。

希望这种新的艺人遴选方式也能为当下的娱乐圈带来一丝新风。

6.13.2 剧本临修

早在十多年前,影视界已有互动(interactive)的概念,其本质是增加观众

的参与度,包括题材、剧本、导演和演员的选定等,一改传统“由小众控制、

大众被动接受”的状况,以最大限度地贴近受众。当前,这种互动已随着大

数据的厚积薄发有了根本性的改变。例如①,美国 Netflix 公司在拍摄《纸牌

屋》(House of Cards)之前,挖掘了其 DVD 与网络视频租赁网站上近 3,000 用

户数据,包括 300 万次搜索操作、400 万条视频评价,以及鼠标停顿和位置

信息等,将导演大卫•芬奇(David Fincher)、演员凯文•史派西(Kevin Spacey)

和 1990 年的英国同名电视剧题材关联了起来,并从观影页面暂停后截图功能

中来判断观众对布景或画面的偏好,事后验证这部剧集收视率还是不错的;

同样,国内的影视制作公司也开始了尝试,以《小时代》为例,据其出品方

乐视影业透露,早在投资之前,公司就对同名原著的点击量、点击用户身份

等关键数据进行了统计并找到了可能的核心圈受众,这部电影尽管影评人骂

声一片,还是取得了不俗的票房。又如②,近期致力于在互联网上重塑电视

文化的 Google 旗下 Youtube,凭借视频推荐算法斩获艾美奖(Emmy Awards),

该算法能找出捕获观众几分钟注意力的散落标签或内容。

然而,真正的互动并非是这种剧本定制,而应是剧本临修,即以受众偏

好来展开情节的影视剧或网络游戏,如在片头、片尾设置多个版本等。这并

① http://paper.people.com.cn/rmrbhwb/html/2013-08/09/content_1280624.htm.

② http://www.tmtpost.com/53641.html.

Page 173: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

173

非不能实现,好莱坞已经就如何避免票房惨淡开展探究①,“一位名叫亚历克

西•柯克(Alexis Kirke)的前华尔街数量分析师自认为找到了解决方案”,在

2013 年早些时候,他公映一部名为《许多世界》(Many Worlds)的互动影片时,

要求观众穿戴一些传感设备,以使其监测受众的脑电波、心率或肌肉紧张水

平等系列观影生理反应,并基于这种情绪反馈来改变影片的叙述结构或方向。

另外,也有人在探索如何让网络游戏更吸引人的方法②,一般游戏的开头几

分钟或几小时至关重要,可能会出现大量用户流失状况,除了从界面的易用

性和简洁性、免费试玩模式有效性或难度曲线和新手教程质量等公认考虑因

素外,还应从用户行为模式来进行预测,在这些潜在流失用户真的退出前给

予一定的游戏体验提升。

6.13.3 题材定制

在 2010 年 8 月的《21 世纪经济报道》上③,有一篇解读 Demand Media

的文章,这家员工总数不足 600 人、年人均创收却超过 40 万美元的公司,月

有近 9,000 万访问者,简单来说其商业模式是“发布话题、支付稿酬”,由上

万名网络写手或草根视频制作人认领并完成,营收则从访问者所带来的广告

点击中获取。显而易见,这个在 2010 年 4 月被估值为 9.3 亿美金的“按需媒

体”,仅是普通的众包。然而,Demand Media 在迎合热点话题、配合快速阅

读上做得很好,这是因为:其使用了一些算法来挖掘“当前网络热点话题”

和“提高广告收入的关键字”。由此可见,正如 Demand Media 所阐述的公司

使命“用有商业价值的内容来满足这个世界的需要”④,题材优劣很关键。

对文体娱乐业来说,同样如此,除了要有较高的人财物投入外,定制新

奇、独特并符合受众需求的题材尤为重要。比方说我国的电视综艺节目,尽

管多年来已历经晚会、游戏、益智、选秀和虐星⑤⑥等多重嬗变,但题材或多

或少存在同质泛滥、格调低俗和品位不高等现象,有的是“全球抄袭”,有的

① http://www.slrbs.com/yule/ylxw/2013-08-06/112445.html.

② http://www.199it.com/archives/44342.html.

③ http://www.21cbh.com/HTML/2010-8-20/xOMDAwMDE5MzExOA.html.

④ 原文:Our mission is to fulfill the world’s demand for commercially valuable content.

⑤ http://media.people.com.cn/GB/22114/70684/188758/11497471.html.

⑥ http://www.taiwan.cn/taiwan/tw_EntertainmentNews/201304/t20130417_4093276.htm.

Page 174: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

174

则只是“新瓶装陈酒”。

应当看到,数据创新能帮助减少或避免这种因某些专业人士的“江郎才

尽”所导致的题材设计缺陷。例如①,Lava Radio 根据目前时间给用户推荐多

个场景电台、再以用户选择场景自动播放合适音乐,这很符合人们在高速生

活节奏下“越少使用成本得到越多预期服务”的需求,同时另一好处在于能

像当年从收音机听广播那样“有未知的期待”。又如②,阿里巴巴旗下友盟团

队在挖掘匿名手机用户数据后发现,以不同题材游戏组合营销来避免移动游

戏题材大量相仿造成的促销困难,“一是休闲游戏、动作街机、棋牌、竞技飞

行音乐等类别游戏组合,一是冒险、策略、角色扮演、模拟经营养成等类别

游戏组合”。

6.13.4 例:大数据排片

据业内通识,影视作品自拍摄到上映或播出,排片是很关键的,甚至电

影排片中“所有电影技术对票房的贡献总和都比不上‘排片率’一个数字”③,

关系到票房盈亏或广告收益多寡的既得利益,牵扯着发行方与院线的影片场

次选择和电视台的档期编排。

近期,新媒体专家高泽龙在“新华娱乐”上表示,大数据或将能提供决

策支持、规避各种明潜规则,较为公平地解决现有影视作品的排片争端。例

如:根据同期上映的电影网络搜索量得到基本关注度排名,或能作为排场的

依据,这些包括影片评分、预告片花视频观看时长、自媒体中对影片的提及

量或期待程度等。又如:根据不同地域、院线档次、受众分类和当前热点进

行个性化排片,而不受以往传统的经验或人情等主观因素所左右。

应当看到,除了影视作品,电台广播的合理排片,依据听众偏好来设计

节目和安插广告,同样需要大数据。

① http://www.leiphone.com/lavaradio-environment-radio.html.

② http://www.leiphone.com/data-analysis-game.html.

③ http://news.xinhuanet.com/ent/2013-07/11/c_124992270.htm.

Page 175: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

175

6.14 公共管理业

公共管理①,是由政府、以政府为主导的非营利组织和以公共利益为指

向的非政府组织等在内的各种公共组织所提供的,涵盖公共行政管理和公共

服务管理,公共行政管理是以国家行政部门即政府为主体的,而公共服务管

理则是有国家行为介入的,例如②,同样是政府,对教育的执法属于公共行

政管理,而对公立学校的管理则属于公共服务管理。

作为公共管理的两大组成之一,公共服务据其内容和形式可被分成 4 类:

第一类是基础公共服务,如提供水、电、气或通讯等;第二类是经济公共服

务,如科技推广或政策性信贷等;第三类是社会公共服务,如公办教育、医

疗和社会福利等;第四类是公共安全服务,如消防等。

所以说,公共管理这个行业涉及的是社会的方方面面,若要提升现有管

理水平,是很需要数据创新的。

6.14.1 兵棋推演

兵棋推演③能被溯源到 4500 多年前的中国,开始时在地面上使用石子和

木条演示阵法;1811 年普鲁士宫廷战争顾问冯·莱斯维茨(Von Reisswitz)男

爵发明了由一幅地图、一套规则和几个棋子组成的现代兵棋。随着信息技术

的发展,世界各国均在着力追求兵棋推演的计算机化,即:将作战部队的体

制编制、武器系统等逐一量化;设计一套仿真规则,由作战指挥中心、作战

演训中心及各作战执行单位指挥所执行;针对重大战备议题决定战术、模拟

实战环境和作战进程进行推演。

然而,目前计算机兵棋推演存在颇多争议,究其原因有三:一是这种推

演太多依赖于相应软件,同时现有战役级以上计算机作战模拟软件开发应用

远远不够;二是很多作战规则设计与模拟大量指挥扔交由人工决断处理,计

算机仅提供辅助工作;三是作战结果评价及其与真实结果匹配度评定,使用

传统统计、运筹等方法分析相当困难。

① http://baike.baidu.com/view/1703333.htm.

② http://baike.baidu.com/view/2234183.htm.

③ http://baike.baidu.com/view/294673.htm.

Page 176: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

176

由此,兵棋推演突破现有瓶颈的至少解决以下两个问题:其一,掌握更

多的数据资源,除了推演必备的对垒双方战术规则、参战兵力、武器效果、

战壕地形等军事数据外,还应有遥感与地理数据、无人机探测数据等,甚至

还需囊括气象数据。其二,不再以“按需求设计软件、再以应用模拟推演”

的重复式劳动,而是直接使用数据挖掘工具寻找到以往“找不到或没有找到”

的战术或规则,采用新的分析方法评估作战过程、评价推演结果及其与真实

结果匹配度。

在未来,军事对垒可能不再硝烟纷飞,而是仅凭虚拟推演决定真实胜负。

因而,为实现中华民族伟大复兴、从纯粹“经济崛起”转变到兼有“强悍军

事”,应重视数据推演。另外,诸如消防、警察等公共管理部门也是需要的。

6.14.2 舆情分析

舆情①是在一定社会空间内,围绕某些中介性社会事件的发生、发展和

变化,民众对社会管理者产生和持有的政治态度,较多地参与表达信念、意

见等。舆情分析②,即分析话题、明确事件,用以理清中介性社会事件发展

脉络、涉及民众利益诉求或情绪等,这些事件一般包括:自然灾害、生产安

全、群体性事件、公共卫生、公权力形象、司法、经济民生、社会思潮、境

外涉华等。

网络时代,互联网舆情较传统媒体所构建环境传播的速度更快、影响面

更广,仅靠舆情实时监测或使用较为粗暴的手段去干预传播路径,已不符合

当前突发事件处置、民意沟通与舆论引导等迫切要求。通常舆情热点在变成

舆情燃点之前有一段较长的酝酿时间,如一则“国家发改委将使用‘榨菜指

数’监测农民工回流”的假新闻事件③,从 2013 年 8 月 9 日舆论热点初显到

2013 年 8 月 12 日形成舆论燃点花了近 5 天时间;而从舆情燃点再到政府等

公共组织形象“坏点”和认知“死点”则会很快,如果能切实把握话题的酝

酿趋势、关联因素或者地域症候反应就能较常规监测提前预知,或将改变易

① http://wenku.baidu.com/view/7d214b020740be1e650e9a25.html.

② http://baike.baidu.com/view/4000073.htm.

③ http://www.eeo.com.cn/2013/0809/248253.shtml.

Page 177: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

177

处于被动局面的现状。

所以,适时考虑使用新的数据工具探寻并预测舆情趋势,是值得公共管

理行业商榷的。在国外,自称为“社交网络水晶球”的 Blab①能从舆情趋势

中预测未来 1~3 天的网络热点,以帮助政府或企业化解危机。Blab 大概监测

了近 50,000 个数据源,其中有:Facebook, Twitter, YouTube 及其他博客和新

闻,能从中分析出各种消息的传播路径及传播模式,在下一次相似热点出现

时及时预报,特别地,Blab 还采用了消息源权重判断,能找到到舆情传播中

的核心或枢纽人物。

6.14.3 例:各种版本“棱镜门”

近期,由爱德华·斯诺登(Edward Snowden)所揭发的美国国家安全局

(National Security Agency, U.S. NSA)“棱镜”(PRISM)项目,在全球范围内掀

起了不小的波澜,尤其是中美俄三国都被卷入其中②。“棱镜”计划的正式名

号为“US-984XN”,是一项始于 2007 年小布什时期的绝密数据监听计划,美

国情报机构取得美国九大互联网数据后进行挖掘与分析,主要是“从音频、

视频、图片、邮件、文档以及链接中分析个人的联系方式与行动”③。

在随后铺天盖地对美国的谴责声中,英国和印度媒体相继爆料,出现了

英国版、印度版的“棱镜门”④⑤。英国《卫报》(The Guardian)于当地时间

2013 年 6 月 21 日称,英国情报机构政府通讯总部 (Government

Communications Headquarters, U.K. GCHQ)也一直在暗中收集全球范围内的

网民数据,这项计划名为“时代”(Tempora),包括邮件往来、Facebook 定位、

互联网追踪和通讯记录等,并与美国国家安全局共享;而据印度媒体报道,

印度这项计划被称为“国家网络协调中心”(National Cyber Coordination Centre,

India NCCC),估计印度有“9 亿固定电话和移动电话用户以及 1.2 亿互联网

用户成为被监控的目标”。

① http://www.36kr.com/p/202487.html.

② http://it.people.com.cn/n/2013/0709/c1009-22132005.html.

③ http://baike.baidu.com/view/10688863.htm.

④ http://www.yicai.com/news/2013/06/2803130.html.

⑤ http://world.people.com.cn/n/2013/0622/c157278-21932921.html.

Page 178: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

178

这些各种版本“棱镜门”的背后,折射的是数据霸权的争抢,无论我们

承认与否,时代正朝着这个方向在前行。

Page 179: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

179

第七章 数据产业商业模式

从企业的角度,“现代管理学之父”彼得·德鲁克(Peter Drucker)断定[73]:

“当今企业之间的竞争,不是产品之间的竞争,而是商业模式(business model)

之间的竞争”①;从产业的角度,商业模式的竞争同样能影响产业盈利点的

增减,进而引发产业变动。通常,传统产业的产业变动正是新兴产业的发展

契机,因而以探索和改进原有商业模式为目的商业模式创新,对数据产业这

一新兴产业的发展很重要。

7.1 商业模式的一般分析

鉴于界定商业模式的难度,很多学者热衷于商业模式概念的诠释和澄清,

自 20 世纪 50 年代提出至今已有上百种,较常被引用的有保罗·狄莫斯(Paul

Timmers)[74]在 1998 年提出的“商业模式是产品、服务和信息流的架构描述,

包括各种业务的影响要素及其作用,各种业务参与者的潜在获利和收入来源

体系结构”等②,目前最为学界接受的是亚历山大·奥斯特瓦德(Alexander

Osterwalder)等人[75]在 2005 年发表的“厘清商业模式”(Clarifying Business

Models: Origins, Present, and Future of the Concept)一文中所提出的:“商业模

式是一种包含了一系列要素(element)及其关系的概念性工具,用以阐明某个

特定实体的商业逻辑”。

归纳起来,商业模式的对象是“要素”,任务是“形成逻辑”,功能是“价

值”的创造与获取。

7.1.1 要素

商业模式的组成要素,与其定义密切相关,也呈现多样性。2003 年,雪

城大学的迈克尔·莫里斯(Michael Morris)等人[76]在《商业研究期刊》(Journal

① 原话是:Nowadays the competition between business is not the competition of products but

the competition of business model.

② 原文是:An architecture for the product, service and information flows, including a

description of the various business actors and their roles; and a description of the potential

benefits for the various business actors; and a description of the sources of revenues.

Page 180: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

180

of Business Research)上发表了一篇文章,将包括数次夺得“麦肯锡奖”

(McKinsey Award)①的一流战略大师加里·哈默尔(Gray Hamel)在内 1996~2002

年间 30 多位学者所提出的商业模式定义进行关键词比对分析,发现商业模式

要素共被提及 25 种、平均每个定义涉及的数量从 3~8 种不等,有些要素被

反复提到,诸如价值主张、伙伴关系、产品、内部基础设施、目标市场、资

源或能力等。在此基础上,2004 年,奥斯特瓦德在其博士论文[77]中设计了一

种商业模式本体(ontology),对应产品(product)、客户界面(customer interface)、

基础管理 (infrastructure management)和盈利面 (financial aspects)四大支柱

(Pillar),阐述了 9 种现已被学界确认的主要素,分别是[78]:价值主张(value

proposition)、消费者目标群体(target customer segments)、分销渠道(dstribution

channels)、客户关系(customer relationships)、关键业务(key activities)、核心能

力(core capabilities)、合作伙伴网络(partner network)、成本结构(cost structure)

和收入来源(revenue sreams)。

从要素角度,商业模式主要涉及“客户价值最大化”、“业务组合”、“高

效率”、“系统”、“可盈利”、“实现形式”、“核心竞争力”、“整体解决”8 个

关键点,其中:“业务组合”、“高效率”、“系统”是先决条件,“核心竞争力”

是手段,“客户价值最大化”是主观追求目标,“可盈利”是客观结果。

7.1.2 形成逻辑

源于创意的商业模式本质上是一种商业逻辑,用来横向列举或纵向综合

组成要素。综合莫里斯和奥斯特瓦德等人的研究,这种逻辑在形成上大致分

成 3 类:一是经济类,以盈利面“如何赚钱”产生逻辑,是一种获取并保持

单个企业收益的逻辑陈述[79],涉及的主要素有收入来源和成本结构,其他要

素还有盈利模式、定价策略和优化产量等;二是运营类,以基础管理“如何

运营”产生逻辑,是一种排除了市场、环境和利益相关者等因素的企业收益

与产业价值链关系研究,涉及的主要素有核心能力和合作伙伴网络,其他要

① 麦肯锡奖(McKinsey Award):自 1959 年起,麦肯锡管理研究基金会(McKinsey

Foundation for Management Research)与《哈佛商业评论》(Harvard Business Review)合作设

立,该奖项授予 2 篇发表在《哈佛商业评论》上的最好文章的作者。

Page 181: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

181

素还有交付方式、管理流程(如资源流、业务流、后勤流等)和知识管理等;

三是战略类,以产品和客户界面“如何发展”产生的逻辑,是从市场参与者

出发对产业利益的描述,主要素有价值主张、目标消费者群体、分销渠道和

客户关系,其他要素还有价值创造、差异化和愿景等。

从形成逻辑角度,商业模式的内涵正从基于企业的经济、运营层次向基

于产业的战略层次延伸,并趋于三者整合,具体表现在:由起初的只强调收

益来源或是利润,逐渐转向现在的寻求与外部市场机会结合,即解决市场待

解决问题或者满足消费者尚未得到满足的需求。

7.1.3 价值

作为商业模式的功能,价值并非简单指的是“盈利”,而是一个发现价值

来源进行创造以期获得其中一部分的过程,这里的价值发现、创造与获取是

同时存在的,其表现在:消费者目标群体的价值需求、产品的价值主张、业

务运作的价值创造、分销渠道的价值传递和战略控制的价值保护等。2001 年,

沃顿商学院的拉菲·阿米特(Raphael Amit)等人[80]指出了价值发现、创造与获

取的 4 种途径,分别是:新颖(novelty)、占据(lock-in)、互补(complementarities)

和效率(efficiency),如图 7.1 所示。

价值

新颖

占据效率

互补

图 7.1 价值创造与获取的途径[80]

从价值角度,一种好的商业模式是兼有可复制性和竞争壁垒两种悖论特

Page 182: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

182

性的,这表现在:一是易于模仿与借鉴,甚至于“抄袭+微创新”也能被确

认为是新颖的,重逻辑轻价值或者片面强调“盈利”的复制不可取;二是存

在价值保护,这种保护是在寻求价值创造与获取平衡基础上的,竞争壁垒即

形成这种商业模式的要素,包括行业标准、领导地位、品牌形象、产业规模、

客户忠诚度或专利等排他性优势,从而使竞争者难以简单地照搬照抄。

7.2 数据产业的商业模式

应当看到,数据产业这种新兴产业的商业模式之所以能被认为是传统产

业商业模式基于数据创新的“升级”,源于两者间的相通性。由此,从传统产

业提炼出若干种基本商业模式形态,对了解和把握数据产业商业模式的基本

特点和方法很有帮助,并且只有这样,才能真正架设起数据科技研发与数据

产业企业孵化之间的桥梁,让不同数据产业链环结合自身要素特点创新商业

模式,同时使同一数据产业链环合理规避价值重叠。

7.2.1 资源占有型

传统产业的资源占有型商业模式,是以占有各种有形或无形不可再生自

然资源为特点的,从要素角度表现为:一是核心能力以资源为优势,二是价

值主张对资源依赖性大,三是涉及客户界面和基础管理两大支柱的要素均相

对薄弱;从形成逻辑角度属于独特资源经济模式利用;从价值角度是以某种

特殊资源占据为特征的。

一般来说,这种资源占有型商业模式还能被细分成:资源利用、资源创

新、资源嫁接、资源捆绑和资源融合等多种。在产业发展比较粗糙的情况下,

资源占有型商业模式是以资源利用为主的;随着技术进步与分工细化,简单

的资源利用将被资源创新所代替,或者借助某种渠道进行移植实现资源嫁接,

又或者与其他资源联合延伸盈利空间开展资源捆绑和资源融合。

有了传统产业资源占有型商业模式为基线,能很容易分析出数据产业资

源占有型商业模式的特性。首先,数据产业所占据的是数据资源,不同于传

统产业的自然资源,并非是不可再生、高污染的;其次,数据产业对数据资

源的依赖性仍然很强,核心能力和价值主张等要素也是以数据资源占有为优

Page 183: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

183

势和基础的;再次,数据产业企业有地域考虑问题,虽然没有类似传统产业

企业因资源丰富性、供应便利性等方面的地区根植性选址考虑,但由于数据

资源依赖存储介质、传输设备等硬件载体,仍有数据中心地域比较和防止数

据被恶意拷贝等一系列问题;最后,数据产品附加值高,区别于传统产业因

产品属性、形态或层次变动不大等不需要大量技术或管理投入的状况,数据

产业需要有大规模技术或管理投入量以利于数据资源的生产或开发。

数据产业的资源占有型商业模式,除了参照传统产业的扩展方法,根据

数据资源的不同占有方式,还有两种细分类型:一种是领域控制,这种细分

的商业模式是基于领域内数据资源的独占型占有的,一般取决于各个领域的

专业化控制要求,如金融领域垄断性、医疗领域专业性等,在要素上是在某

一领域内强化消费者目标群体、客户关系和合作伙伴网络等要素,以形成排

他性,在形成逻辑上属于战略控制,在价值上是以占据产业价值链为特征的。

另一种是行业辅助,这种细分的商业模式是基于行业外数据资源的共享型占

有的,是一种从行业边界外围介入辅助行业内企业实施价值改造的商业模式,

在要素上涉及如基于消费者需求挖掘后发起的品牌改造等的关键业务或分销

渠道等要素功能提升,在形成逻辑上属于运营类改进,在价值上实施的是价

值互补。

7.2.2 内在能力型

传统产业的内在能力型商业模式,是使用持续性创新和持续化累积相结

合的一种内在能力培育,从要素角度表现为:一是核心能力以技术性或专业

化为优势,二是成本结构中人力资源、知识资产方面的所占比重较大,三是

价值主张、分销渠道等要素呈现多元化、多向度的特点;从形成逻辑角度属

于将孤立盈利逻辑扩展成整体的或者使某个盈利逻辑得以持续盈利的运营结

构改造;从价值角度是新颖、效率的运营创新或业务流程变革。

以内在能力由弱变强的成长历程来看,这种商业模式能被细分成:技术

领先、持续累积、品牌授权和分工互作等多种。在成长初期,基于一定的技

术性或专业化优势,内在能力型商业模式一般以技术突破为主;持续经营一

段时期持续累积能提供持续稳定的价值获取;累积到一定程度在专业和规模

Page 184: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

184

上做大做强以后,采用品牌授权的契约方式分享自有品牌资源以增加收益,

或者采用分工互作以各自利益为助力在整体运营中获得新的收益源。

与传统产业相比,数据产业内在能力型商业模式差异在于:首先,核心

能力要素的强化方式不同,其是由创意和数据科技双驱动,不再一味强调技

术突破和优化;其次,成本结构变化,得益于开源协作和项目众包,成本中

的人力资源、知识资产等方面开销将大大节省;再次,运营方式发生改变,

从单纯以财务或业绩导向、基于产业链价值研究的运营调整,转为基于市场

细分的运营和战略多层次整合和提升;最后,价值获取特征不同,不再仅仅

依靠单个产业链环的新颖或效率,各产业链环之间的价值互补性大幅增加。

根据上述变化,数据产业内在能力型商业模式的细分,在一般的扩展方

法的技术领先与持续累积之间会嵌入两种新类型:一种是众包协作,这种细

分的商业模式是在某种数据技术被复制或传播后,为削减成本,使用互联网

发布分工需求,聘用一些能利用闲暇时间、收取小额报酬或着对这方面有兴

趣的志愿员工而进行的一种协作方式,在要素上拓展了合作伙伴网络以削减

成本,在形成逻辑上属于运营结构调整,在价值上体现了互补性。另一种是

产品定制,这种商业模式是在市场细分的基础上的,比如将市场细分成:大

众市场 (mass market)、利基市场 (niche market)、区隔化市场 (segmented

market)、多元化市场(diversified market)、多边市场(multi-sided market)等,通

过满足个别客户或迎合细分消费者群体需求来形成产品差异,在要素上使用

了数据创新来提升消费者目标群体、客户关系等要素强度,在形成逻辑上是

整合,在价值上有新颖和互补双重特征。

7.2.3 资本运作型

传统产业的资本运作型商业模式,是以资本运作这种规避或利用市场法

则以实现其自身价值增值的手段为特征的,从要素角度表现为:一是将关键

业务和核心能力等要素视作产品的一部分以吸引资本投入,二是在分销渠道

上采用诸如买断、租赁、抵押、质押、分拆和回购等资产型交易方式;从形

成逻辑角度属于战略层面向外部市场寻求资本结合机会;从价值角度是以资

本占据和互补为特征的。

Page 185: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

185

根据资本运作的扩张、整合和收缩 3 种周期模式,这种资本运作型商业

模式能被细分成:创业孵化、股权投资、融资租赁、风险追加、基金运作、

产权交易、企业并购、资产剥离、公司分立、分拆上市和股份回购等多种。

作为一种新兴产业,数据产业的资本运作型商业模式与传统产业的差别

不大,唯一的区别在于数据资产的界定、量化及其评估上,需要出台公允、

法定的法律法规或标志,运用适当的方法,对数据资产进行确认、计价和报

告,为这种商业模式提供价值尺度依据,与诸如专利、商标、品牌、土地使

用权或特许权等无形资产一样,成为产权变更、股份改造或清算拍卖等提供

一定的根据和前提条件,从而促进数据产业的成长和发展。

7.3数据产业商业模式创新

商业模式并不是静态的,市场竞争、技术突破或消费者需求改变等原因

会逐渐削弱其价值获取能力直至消失,因而适时否定、淘汰和更新商业模式

很重要。

商业模式创新是一种以“实现资源聚合效应、价值锁定效应和发展耦合

效应”①为目的的积极的商业模式动态调整方法,在对象、任务和功能上涉

及要素、形成逻辑和价值三重创新,具体还有诸如新产品开发、客户界面创

新、基础管理变革、盈利面调整、战略资源重组和获取优化等。

区别于传统产业,数据产业商业模式创新的意义在于,除了能探索新的

价值发现、创造与获取方式以谋求本产业发展外,还能对其他产业现有商业

模式提出挑战,进而帮助这些传统产业突破瓶颈、升级转型。由此,理解这

种新兴产业商业模式创新的基本规律和方法,是提升区域乃至国家整体产业

绩效的一个前置条件,可从以下 3 方面进行。

7.3.1 源泉

最著名的“创新源泉论”是德鲁克 1985 年在其《创新与企业家精神》

(Innovation and Entrepreneurship)一书所中给出的有 7 种,分别是[81]:意外事

① http://finance.sina.com.cn/leadership/mroll/20110617/160310008910.shtml.

Page 186: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

186

件(unexpected)、不协调事件(incongruities)、过程需要(process needs)、产业与

市场结构(industry and market struture)、人口统计学数据(demographics)、认知

变化(changes in perception)和新知识(new knowledge);1988 年,麻省理工斯

隆管理学院的里克·冯-希佩尔(Eric von Hippel)额外又添加了一项[82]:用户创

新(user innovation),这里的用户指的是“希望从产品和服务的使用中获利的

公司或个人的消费者”①。

基于数据产业商业模式的特点,应从以下 5 个不同角度理解 8 种数据产

业商业模式创新的源泉。

1.数据资源占有

在这个角度,影响数据产业商业模式创新的是意外事件。意外事件的潜

台词是“机遇”,包括意外的成功和意外的失败,意外的成功能提供最小的创

新风险、最大的创新机遇,意外的失败则相反。在数据产业链中,相对来说,

控制了部分领域或行业数据资源的产业链环价值丰度较大,同时易于继续创

新以占据更大价值丰度,然而意外事件的存在,可能致使这些产业链环意外

失败,或者一些间接控制数据资源的边缘产业链环意外成功,例如,占有轨

迹线交通数据资源的出租行业,被“打车软件”这种没有数据创新的简单“打

通”司机和乘客沟通渠道的商业模式,轻易蚕食价值。

2.数据资产量化

数据资产量化是一种以数据为核心资产的价值认可,在数据产业这一新

兴产业的发展过程中,这种价值认可很重要,是直接影响数据产业商业模式

创新的过程需要和认知变化。如同“半杯水”被确认为是“半满的”或是“半

空的”,当认知发生变化时,意义就发生了改变,而事实本身是否变化反而不

重要。应当看到,这种认识变化是可以被界定、检验和利用的。当前大多数

人对数据资产认识不足,数据资源还不能被确认为资产,甚至拥有金融数据

资源在亚洲排名靠前的 Wind 资讯需要购买土地使用权才能提升其整体估值

来谋求上市,因而能适时把握这种认识时机的人很容易在数据产业发展过程

中分到“一杯羹”。

3.数据科技研发

① http://web.mit.edu/evhippel/www/books/Chinese_DI/CN_DI_CompleteBook.pdf.

Page 187: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

187

数据挖掘本质上是一种知识发现,从这个角度,数据科技研发属于数据

产业商业模式创新的新知识源泉,应成为数据产业创新主体的内在核心能力。

4.产业基金投入

数据产业基金的适时投入,能捕获由产业与市场结构和不协调事件所引

发的机遇。这种理想与现实差距所导致的“不协调”机遇,大致有 3 方面:

一是产业假设与市场预期的不协调,表现在市场预期被现有数据创新所获得

的价值所误导,错估未来整个数据产业链的价值丰度,此时没有产业基金的

激励整个数据产业发展节奏将放缓;二是产品需求与产业利润的不协调,表

现为市场中应由数据产业提供的数据产品需求在增长,但经济效益没有相应

增长,这时产业初创者的信心会被打击,需要有产业基金进行调合;三是产

业努力的内部不协调,表现在数据产品的实验室研发与市场应用断层,产业

基金能为这种断层搭建阶梯。

5.消费者需求导向

用户创新和人口统计数据这两大创新源泉的目标是客户价值,其中:用

户创新为了获得消费者偏好,人口统计数据则是细分客户。应当看到,与传

统统计方法相比,使用数据挖掘技术来支持消费者需求与偏好挖掘,会更广

泛、便捷和可靠地发现、创造和获取这种价值。

7.3.2 方法

商业模式创新的思维或模式在重要性程度上都远不及方法。使用正确的

方法,有利于质疑、挑战和转换陈旧的商业模式,或者发明、设计和实现全

新的商业模式。

从方法论范畴,常规的创新方法以激发创意为主,有很多种,诸如萃智

法(theory of inventive problem solving)、情景分析法(scenario analysis)、趋势

分析法(trend analysis approach)、路径图法(roadmap methods)、质量功能展开

法(quality function deployment)、创造技法(creative technique)等,其他的还有

SWOT 法、头脑风暴法、七步思考法和田十二法等。然而,除了创意构思外,

商业模式创新还需要能思考自身所在的产业或组织、潜在或已有的竞争对手,

进行产品预估、客户洞察、原型制作和情景推演,是一种类似战略蓝图的系

Page 188: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

188

统设计过程。

因而,数据产业商业模式创新并非简单地挑选或综合使用这些传统创新

方法,而是应从数据产业自身特点出发,融合创新源泉,实现全要素创新和

全价值链创新。

1.全要素创新

从前文的一般分析可以知道,要素是构成商业模式必不可少的因素。尽

管这些要素的种类、个数及其所属的层次划分等问题还有待商榷,但有一点

能达成共识,即应实现全要素创新。

全要素创新不仅指的是所有产品、客户界面、基础管理和盈利面的要素

本身创新,还包括各个要素的协同创新。一般来说,无论是何种要素创新都

会涉及制度、组织、文化、战略和市场这 5 方面的调整,所以这种要素创新

的协同关系表现在:一方面,以某种要素创新为要求对其他相关要素进行调

整以营造良好的创新环境;另一方面,从调整一些要素入手重新整合或配置

资源以推进某种要素的创新。

举例来说,免费是一种价格主张要素的创新,目前一般有 3 种:一是基

于广告(advertising-based)的全免费,二是免费增收(freemium)模式的基础免

费,三是诱钓(bait and hook)模式的使用免费产品吸引重复消费。在这种单要

素创新中,会涉及到其他要素的协同创新,比如成本结构要素由成本驱动变

为价值驱动、向客户传递价值主张的分销渠道发生改变并实现客户细分等。

或者反过来,从整合和配置资源入手,调整价值主张、分销渠道、关键业务

和成本结构等要素,以有利于消费者目标个阶段,分别是:价值需求、价值

主张、价值创造、价值传递和价值保护,每个群体或客户关系的要素创新。

2.全价值链创新

从迈克尔·波特的价值链角度,大致有 5 阶段都存在有商业模式创新的

机会。

价值需求和价值主张阶段,需要准确把握市场趋势、客户偏好和竞争格

局;价值创造阶段是以技术创新为起点的,核心是产品创新,一般着眼于技

术研究、产品开发和工艺开发等;价值传递阶段属于营销方式的创新;价值

保护阶段用来打击竞争对手,是一种排他性创新。

Page 189: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

189

以数据产业来说,价格需求和价值主张的创新是由消费者偏好或市场需

求挖掘来实现的,价值创造的创新是由数据产品设计来决定的,价值传递的

创新是由数据营销来进行的,价值保护的创新是由数据资源垄断来实施的。

7.3.3 悖论

作为著名美籍奥地利经济学家约瑟夫•熊彼特(Joseph Schumpeter)创造性

破坏(creative destruction)①观点的延伸,哈佛大学商学院的克莱顿·克里斯坦

森(Clayton Christensen)在 1997 年开创性地提出 [83 ]破坏性创新(disruptive

innovation)。前文列举的所有已有或未来数据创新,已实证了数据科技属于

一种颠覆性技术(disruptive technologies),是引领数据产业这一新兴产业未来

发展的关键。

然而,正如“开放式创新”(open innovation)理念倡导者、加州大学伯克

利分校的亨利·切斯布罗格(Henry Chesbrough)所认为的[84],“技术本身是没

有价值的,只有当它通过某种商业模式实现了商业化之后才能体现其经济价

值,一项平庸的技术搭配出色的商业模式也许比一项先进的技术却搭配平庸

的商业模式更有价值”②。

必须看到,作为一种颠覆性技术,数据科技的超前性往往会超越现有的

公众认识水平和接受程度,相应地,数据产业商业模式的创新难度较大。一

方面是资源提供者因风险和不确定性对新商业模式的极度不信任,另一方面

是在位者因新商业模式对既存的产品、产业甚至制度破坏性挑战的强烈压制,

所以应由政界、学术界和产业界携手进行全员创新,进行形成新的由数据产

业所独有的产业发展模式,以规避可能产生的数据科技创新与数据产业商业

模式创新间“鸡生蛋、蛋生鸡”的悖论式问题。

① http://en.wikipedia.org/wiki/Creative_destruction.

② 原文:Technology by itself has no single objective value. The economic value of a

technology remains latent until it is commercialized in some way via a business model. In fact,

it is probably true that a mediocre technology pursued within a great business model may be

more valuable that a great technology exploited via a mediocre business model.

Page 190: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

190

第八章 数据产业企业经营模式

不同于商业模式的多角度和普适性,经营模式(operation mode)是一种涉

及具体企业的经营风格和经营管理方法,总的来说是因企业而异的,通俗来

讲就是企业的赚钱方式,即如何将所拥有人财物等资源有效组合以达到价值

的不断增长进而盈利的目的。正如波特五力分析模型(Michael Porter’s five

forces model)所分析的那样,企业经由经营模式创新所获得的竞争驱动力,

将通过影响价格、成本和企业所需要的投资直接决定产业的盈利能力。因而,

数据产业企业经营模式的合理性是左右数据产业企业发展的主要因素。

8.1 经营模式的一般分析

经营模式这种企业应对特定市场的反应范式,被定义为“企业根据经营

宗旨,为实现确认价值定位所采取某一类方式方法的总称”①,在内涵上,

围绕“企业的价值定位”大致有以下内容②:一是确认企业的价值定位,二

是依据这种价值定位确定企业在产业链中的位置,三是企业为实现这种价值

定位规定业务范围,四是在这种价值定位下企业选择或创新商业模式。

因而,一个好的经营模式应具有明确的战略,在趋同的产业发展前提下

寻求企业的异化,进而培育或提升企业竞争力,以保证企业持续获得利润。

8.1.1 战略

1957年,被公认为战略管理鼻祖的美国学者伊戈尔·安索夫(H.igor Ansoff)

发表在《哈佛商业评论》上“多角化经营战略”(Strategy of Diversification)

一文③,开创性地将战略(strategy)一词引入了经济管理领域。1994 年,管理

学大师、加拿大麦吉尔大学的亨利·明茨伯格(Henry Mintzberg)借鉴市场营

销四要素提法、提出战略 5P 模型④,将该领域的“战略”阐述为泛指统领性、

① http://baike.baidu.cn/view/1268127.htm.

② http://wenku.baidu.com/view/b2aa4487ec3a87c24028c4ac.html.

③ http://foswiki.org/pub/Sandbox/SimiWiki/Strategies_for_diversification.pdf.

④ http://baike.baidu.com/view/1443757.htm.

Page 191: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

191

全局性或左右胜败的计划(plan)和定位(position)①,从企业层次指的是②:提炼

过去已有模式(pattern)、计谋(ploy)未来发展的一种观念(perspective)。

根据前人综述[85],战略自顶向下大致有 3 个层次,即公司战略(corporate

strategy)、竞争战略(competitive strategy)和运营战略(operational strategy),一

般来说,公司战略是企业整体战略总纲,需要考虑如何根据企业宗旨确定企

业业务活动的范围和重点,并权衡轻重缓急为这些业务配置资源;竞争战略,

或称划分战略(Division Strategy),所考虑的是如何通过理解本企业产品同消

费者需求、竞争者产品两者关系来确定企业业务的竞争优势;运营战略,又

称职能战略(functional strategy),其关心的则是如何围绕“完成业务”来合理

运营不同企业职能。

从战略角度,企业在设计或选择经营模式时应将战略管理与混乱环境全

盘联系起来,统筹考虑资本、市场、生产、研究与开发、人力资源和公共关

系等问题,面对激烈变化、严峻挑战的环境,充分利用其中存在的各种机会

并创造新机会。

8.1.2 竞争力

竞争力(competitiveness)是一种相对指标③,精确测度难度较大,一般需

要有同种对象的两个及以上参与者角逐或比较才能进行测定和评价。从不同

竞争力理论的内涵来看,测度竞争力本质上是在衡量某种对象的能力

(capability)。比方说核心竞争力,对象是企业涉及业务、产品或资源等难以

被竞争对手复制和模仿的独特技能集合,所衡量的就是这种技能集合的能力。

在经济管理领域,能被竞争力测度的对象还有很多,包括但不限于:区域竞

争力、产业竞争力、企业竞争力、管理竞争力、服务竞争力、品牌竞争力、

财务竞争力和质量竞争力。

从竞争力角度,企业在设计或选择经营模式时应建立在具有异质性、独

到性或有比较优势的竞争力发挥与发展的基础之上,使自身持续具有竞争优

① http://baike.baidu.cn/view/66855.htm. ② http://baike.baidu.cn/view/57774.htm. ③ http://baike.soso.com/v6680666.htm.

Page 192: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

192

势,从而在相对较长的时期获得较为稳定的超额利益。

8.1.3 异化与趋同

在社会科学领域,异化(alienation)和趋同(convergency)有各自一套理论价

值体系。异化是社会学偏哲学的概念,源于拉丁语 alienatio,意为疏远、脱

离或转让,是一种“事物自身向异于自身的他物的变化”,较早的有卡尔·马

克思(Karl Marx)基于路德维希·费尔巴哈(Ludwig Feuerbach)力证“‘上帝’

观念是人类特征的异化”理论而主张的“异化是资本主义的结果”。趋同则源

于生物学术语①,表示“在相同环境下不同物种进化出具有相似功能的器官”,

1944 年创办了哈佛大学社会学系的美籍俄裔著名社会学家皮特林·索罗金

(Pitirim Sorokin)在《俄国与美国》一书中率先将这个概念引入作为社会学术

语,用来比较当时美俄资本主义和社会主义两种社会制度演变的相似性;首

届诺贝尔经济学奖得主(1969 年)、荷兰经济学家简•丁伯根(Jan Tinbergen)和

美国新制度学派著名经济学家约翰·加尔布雷思(John Galbraith)同样是“趋

同论”的主要支持者。

撇开学界对异化和趋同这两套理论的相互驳斥与评判,对于企业选择或

设计经营模式而言,应把握同一国家或地区相仿的经济因素(如经济体制、经

济发展水平、市场供求特征、消费者需求等),在顺应总体趋同的产业发展,

谋求企业自身的异化发展,进而回避同质化和低利润。

8.2 数据产业企业的经营模式

很明显,数据产业企业在选择和设计经营模式是采用蓝海战略(blue

ocean strategy)[86]的。根据欧洲工商管理学院(European Institute of Business

Administration, INSEAD)钱·金(Chan Kim)和勒妮·莫博涅(Renee Mauborgne)

的定义,“红海”(red ocean)代表的是已知饱和市场,内有恶性竞争、利润前

景暗淡;“蓝海”所代表则是未知新兴市场,蕴涵巨大的利润和高速增长的机

会。因而,数据产业企业为自身所开创“新蓝海”是基于使用数据创新改变

① http://baike.baidu.cn/view/1018272.htm.

Page 193: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

193

和提升传统产业企业价值创造水平的,在帮助传统产业企业脱离“红海”的

同时,重塑产业边界以获得自身价值的提升。以下列举一些现有的数据产业

企业经营模式具体说明。

8.2.1 渐进式发展:Google

拥有最大互联网数据资源的 Google,是以搜索引擎这种初级数据产品起

家的。1998 年 9 月,拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)凭

借着二人共同开发的 PageRank 搜索算法,在当时互联网行业巨头们争相以

门户网站为发展方向、忽略搜索服务的时候,创建了 Google 公司并为自己创

造了一片“蓝海”。PageRank 算法的基本思想是:被用户访问越多的网页质

量有可能更高,可以通过分析超链接组成的拓扑结构就推算出每个网页被访

问频率的高低。值得说明的是,正如 Google 第 59 位雇员道格拉斯·爱德华

兹(Douglas Edwards)撰写的《永无止境:Google 传》第 4 章引用第 26 位雇员

辛迪·麦卡弗里(Cindy McCaffrey)的话说“Google 没有战略规划”,告诉投资

者的只有“两年内占领全部互联网搜索业务 50%的市场份额”的“不透露点

子”的价值定位,告诉消费者的只有“不作恶”的口碑式营销,这种以数据

创新为基石的异化经营模式,很自然地吸引到了红杉资本(Sequoia Capital)和

Kleiner Perkins Caufield & Byers 等多个见多识广风投的兴趣。

此后,Google 实现了渐进式发展,奉行多元化,凭借数据科技将触角延

伸入全领域,从调整搜索算法开始,收购 DejaNews 使用 Usenet 将搜索算法

从被动查找数据变成主动寻找信息,先后收购了 Blogger, Picasa 和 Keyhole

等开始大量囤积数据资源,建立 Google 实验室网罗业内顶级数据科学家挖掘

新的数据发现。当前,Google 在新闻、地图和翻译这些方面被业界公认做得

很好,“Google 新闻”完全是由算法决定的,没有人工编辑参与其中,内容

包括在过去 30 天内所含某种语言新闻网站上出现新闻的存档,英语大约有

4,500 个新闻源,其他语言较少些,还可以使用关键字进行订阅;“Google 地

图”拥有海量遥感数据,这是由于太空是没有“领空”概念的,除了受许可

的航空图片外,还有诸如 KeyHole 间谍卫星和公共领域街景汽车所拍摄的城

镇照片,目前新版功能是以 3D 形式俯瞰全景;“Google 翻译”是一种机器翻

Page 194: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

194

译,截止 2012 年已涵盖了全球 60 多种语言,究其原因是拥有的庞大训练集,

使用上下文找到最可能的而非最精准的译义。

8.2.2 复制中创新:百度

2009 年,专注于观察百度公司的“百度非官方”独立博客作者丁西坡(原

名丁涛)出版了一本《百度那些人和事》,其中使用“第 X 帝国”来解构百度,

并认为应分为:技术百度、搜索百度、营销百度和品牌百度 4 个阶段。据此,

百度所采用的是一种模仿创新战略,实践证明这行之有效的,表现在:首先,

李彦宏海归后,凭借其 1996 年发明、获得美国专利的超链分析,于 1999 年

底创立的百度是一家参照硅谷模式创办的公司,但在复制中做了两点改进,

分别是“不准抽烟”和“不许带宠物上班”;其次,在获知了搜索引擎的未来

价值后,在复制了 Google“简洁”的首页特征后,李彦宏团队研发了一种颇

有争议、以牺牲受众利益(即不契合用户搜索意图)为代价而获取报酬的新搜

索技术——竞价排名。

当然,百度的经营模式有自身独特的异化点,即营销,大致有两方面:

一是做商业化搜索引擎,与 Goolge 的佩奇“节约全世界时间”的理念不同,

百度以“在你成功的背后”(behind your e-success)为口号立足于为企业服务,

这些包括新浪、搜狐、网易、TOM 和雅虎中国等门户网站,甚至还为中央电

视台、外经贸部等机构提供后台数据搜索支持。二是本土化策略,其一是在

语言上,百度与人民日报等权威中文机构合作紧密,比 Google 更能把握一些

时令性的关键词,中文页面数遥遥领先;其二是在数据产品的提供上,百度

更能和应对中国用户的偏好,提供了诸如“百度影音”、“百度贴吧”和“百

度百科”等,这是因为:对于中国用户而言,使用搜索引擎大多集中在娱乐、

信息沟通和即时通讯等方面,并且广大网民习惯于免费,在美国则搜索一般

被用于电子商务,据了解百度有将近三成的流量来源于此,另外“百度贴吧”

和“百度百科”采用用户编辑的方式提供了一种新的更新方式。

8.2.3 外包集成:EMC

创建于 1979 年、总部设在美国马萨诸塞州霍普金顿(Hopkinton)的 EMC

Page 195: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

195

是数据存储这一产业链环的典型企业,其选择了使用数据创新 ODM(Original

Design Manufacturer)的外包集成方式作为企业经营模式。

在过去,为拓展数据存储市场,EMC 外包著名的市场调研机构 IDC 自

2007 年开始持续多年调研“数字宇宙”,从中了解到:2010 年诸如中国和印

度等新兴市场只占数字宇宙的 23%,到 2012 年它的份额已高达 36%,到 2020

年,将有 62%的数字宇宙将来源于此。因而,EMC 全球高级副总裁、大中华

区总裁叶成辉最近表示①,要“将推动中国成为EMC在美国之外最大的基地。”

对于未来,在 2003 年 3 月 EMC 宣布的中国业务新一轮五年战略 288 中,

第一条核心目标即是“打造中国 IT 业最强的合作伙伴生态系统”,从而完成

第四条核心目标即“大数据相关业务增长 10 倍”,进而实现两个重点核心“实

现 1,000 个以上‘云’项目落地 300 个以上城市”和“占领企业级数据中心

信息基础架构市场 50%以上份额”。

这些很清晰地表明了,EMC 在把握了数据科技及其产业发展这一趋同趋

势的前提下,没有增加新的业务模块,而是选择了依照其原本一贯战略,以

拓展其具有核心竞争力的数据存储业务方面市场,进而持续增长企业利润。

8.2.4 断尾变革:IBM

作为最为知名的世界 500 强企业之一,面对“大数据”的挑战,IBM 采

取了不同于 EMC 的经营模式,是一种顺应时代发展变化、彻底调整战略的

企业转型,甚至可以说是一种“断尾变革”。

一般来说,企业转型有两种,一是基于核心业务的,一是基于资源和能

力的。前者从本质而言是在同一个产业内进行的,能很好地利用原有的产业

基础,并且退出成本也较低;后者则是先退出原有产业、再进入新的产业,

通常需要付出较大的经济代价和时间代价。

显而易见,IBM 选择了后者。这个创立于 1911 年,在全球 75 个国家拥

有约 38 万名员工、总部位于美国纽约州阿蒙克(Armonk)的跨国公司,自 2006

年至今收购了超过 30 家数据科技企业②,这些企业包括:支持数据多存储厂

① http://storage.chinabyte.com/497/12552997.shtml.

② http://soft.zdnet.com.cn/software_zone/2013/0312/2148115.shtml.

Page 196: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

196

商(如 NetApp, HDS, EMC 等)单写多读(write-once-read-many)的 FileNet、单笔

收购金额超 50 亿元美元具有异构多维技术的 Cognos、统计与预测分析软件

SPSS、提供数据营销方案的 Cormetrics、专供高效数据整合的 Netezza、能增

强风控与财务策略的 OpenPages、智能规划与调查软件 i2、海量数据源挖掘

工具 Vivisimo、非结构化数据可伸缩分析和治理的 StoredIQ、消费者偏好挖

掘工具 Tealeaf Technology,以及云计算数据分析工具 Star Analytics 和

Emptoris 等,另外其 2013~2015 年总收购预算为 145 亿美元①;与此同时,2013

年 4 月宣布启动规模约为 8,000 人的全球裁员计划②,在中国裁员波及的是一

个流程外包业务的部门。

尽管如此,IBM 仍在这一轮“断尾变革”的企业转型从获利③,甚至让

一直不碰科技股的股神巴菲特选择了持股投资。目前 IBM 数据解决方案的应

用点不断扩大,涉及提升营销成效、确定零售店选址、探查犯罪热点、预测

学生成绩和评估医院潜在感染等诸多领域,已拥有大量客户,比如丹麦能源

维斯塔维(Vestas Wind Systems)公司,参与改善风力涡轮机的放置位置;又如

XO 通讯和[x+1]营销公司,帮助进行客户行为趋势预测,其他较大的还有瑞

典皇家理工学院(Royal Institute of Technology, KTH)、爱尔兰海洋学会(Irish

Marine Institute)、赫兹(Hertz)公司、培根学院(Bacone College)、TechnovAted

和 TerraEchos 等。根据业界调查 290,IBM 已成大数据领域的一个“种子选手”,

在 2012 年取得超过 110 亿美元的利润,其中:数据分析收入增长了 13%,

预计到 2015 年底数据挖掘业务将达到 16 亿美元。

8.2.5 并购演进:Yahoo

并购,无疑是一种相当有效的战略,能用来使企业快速获取诸如人财物、

技术或管理等各种资源、强化与扩展竞争力,以期与其他企业相抗衡。

作为 20 世纪末互联网奇迹的创造者之一,Yahoo 一贯是并购战略的坚决

拥护者,但 Yahoo 收购也不是一帆风顺的。自 1994 年 Yahoo 创立以来,近

① http://tech.sina.com.cn/it/2013-02-04/02128041996.shtml.

② http://tech.sina.com.cn/it/2013-06-26/18498482151.shtml.

③ IBM: 积极推进“大数据”时代革新. 硅谷.

http://caijing.qikan.com/ArticleContentNew.aspx?type=3&titleid=siva201122118.

Page 197: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

197

20 年中,先后有过 Broadcast.com, GeoCitieshe, Flickr, Delicious 和 3721 等典

型购并失败案例,或造成服务关闭,或导致用户流失;也曾试图并购 Google,

百度, eBay 和 Facebook,失败后,反被这些拒绝收购公司围追堵截。其他还

有:1999 年的 Online Anywhere、2002 年的 Hotjob.cm、2003 年的 Overture,

Inktomi 和 Mediacode、2004 年的 Kelkoo,以及之后的 eGroups, Dialpad, flickr

和 Oddpost 等。最成功的要数 2005 年斥资 10 亿美元收购阿里巴巴 40%的股

权,这笔并购以 2012 年阿里巴巴 76 亿美元回购 20%股份获得数十倍回报而

大获全胜。

应当看到,屡遭失败而又屡败屡战的 Yahoo 所依赖的“并购演进”同样

是一种好的企业经营方式,能围绕自身战略通过并购来增加利润增长点,表

现在:一是延揽技术与人才以大幅提升数据创新能力,二是收购快速成长型

创业企业以避免出现颠覆性竞争对手,三是相似量级并购以形成业务互补或

降低相似领域竞争烈度。

8.2.6 业务再造:Facebook

拥有超 10 亿用户数的 Facebook 屏蔽了 Google 搜索,成为了一个独立数

据王国。凡事皆有利弊,伴随足以让 Google 垂涎的海量高质人脉数据资源而

来的,是用户转化难度和数据隐私掣肘这两大劣势,用户转化难度在于:

Facebook 用户的购买需求普遍低于使用搜索引擎的消费群体,这也就是为何

广告业务始终不能成为其主要营收的原因所在;而数据隐私更好理解,这是

因为:人脉数据核心价值是真实性,本身就涉及了个人资料、经历、兴趣和

好友等隐私内容。因而,Facebook 的所有业务举措都被视作是数据开发。

2007 年 5 月,当时拥有 1.3 亿活跃用户的 Facebook 开放了平台,允许第

三方开发者通过 Facebook 的 API(应用程序编程接口)设计与其核心功能集成

的应用,这一举动被不少人认为其在效仿微软,称其目标是下一代 Windows;

而针对之后的一年多时间里“聚集了 20 多万位开发者的 45,899 个应用”的

统计①和其推出的定制手机 Facebook Home,有人则认为其在效仿苹果

(Apple)。然而,令人意外的是,Facebook 将 Google 也认作为竞争对手。2013

① http://finance.jrj.com.cn/2008/11/1420592768270.shtml.

Page 198: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

198

年 1 月,Facebook 高调推出一款新的数据产品——图谱搜索引擎(Graph

Search),再加之早先的时间轴(timeline),这些极大地增加了 Facebook 的用户

黏性。

由此可见,Facebook 实质是一种将诸多竞争对手核心业务进行再造的经

营模式,这里之所以没有将 Facebook 描述成“业务复制”的理由是:Facebook

使用的数据资源与其竞争对手是完全不同的。所以,尽管近三年来,在道琼

斯工业指数和纳斯达克综合指数分别上涨 16%和 14%的情况下 Facebook 的

股价累计下跌了 12%,其未来发展仍很值得期待。

8.2.7 二次创业:阿里巴巴

“21 世纪网”记者侯继勇描述马云第一次创业用的句子是①:“1999 年 2

月 21 日,马云在湖畔花园的住所对另外 17 人说:‘现在每个人留下一点饭钱,

其余的放下。’结果筹集了 6 万美金,阿里巴巴项目启动了”。在十多年后的

今天,历经“硅谷狂热”、“互联网泡沫”和“全球金融危机”,通过不断调整

战略,当人们认为阿里巴巴将成为网络贸易领域的一个“超级航母”的时候,

马云退休了、阿里巴巴二次创业了。

2012 年 2 月,阿里巴巴宣布向旗下子上市公司提出私有化要约,回购价

格为每股 13.5 港元;2012 年 5 月 21 日,阿里巴巴与 Yahoo 就股权回购一事

签署最终协议,阿里巴巴用 71 亿美元回购 20%股权;2012 年 7 月 23 日,阿

里巴巴宣布调整淘宝、一淘、天猫、聚划算、阿里国际业务、阿里小企业业

务和阿里云为七大事业群,组成集团 CBBS②大市场;2013 年 4 月 29 日,阿

里巴巴通过其全资子公司阿里巴巴(中国),以 5.86 亿美元购入新浪微博 18%

股份;2013 年 5 月 11 日,高德地图宣布,阿里巴巴集团将认购其增发的约

2.94 亿股优先股和普通股,占扩大后股东的 28%;2013 年 5 月 28 日,卸任

阿里巴巴集团首席执行官仅 18 天的马云高调“复出”,宣布成立由阿里巴巴

集团领投的菜鸟网络科技有限公司,联合银泰、复星、富春及相关物流公司、

金融机构构建“中国智能物流骨干网”(China Smart Logistic Network)。

① http://epaper.21cbh.com/html/2013-03/18/content_61768.htm.

② 由马云提出的一种电子商务新模式:C 消费者,小 B 渠道商,大 B 制造商,S 服务。

Page 199: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

199

至此,马云筹划了 3 年、让人雾里看花的计划终于尘埃落定,其实质是

在搭建一个“数据”王国,进而基于数据创新完善金融和物流服务。在金融

服务方面,以阿里集团提供的数据显示,截至 2012 年底,仅在阿里巴巴中国

站就有 5,200 万注册会员,其中企业会员 800 万、诚信通会员 65 万,支付宝

注册账户突破 8 亿,日交易笔数峰值达到 1 亿零 580 万笔(2012 年 6 月),入

驻天猫的企业超过 6 万家,淘宝卖家超过 700 万家。这些庞大的用户和交易

量数据资源是阿里集团的“硬”资产,其他竞争对手很难复制,阿里金融从

交易数据和诚信纪录重建信用体系,一反传统贷款需要担保或质押的方式,

实行“数据贷款”。而在物流服务方面,“阿里智能物流集团”这一说法中的

“智能”二字是需要基于数据创新的,只有使用数据挖掘技术整合数据资源,

才打造出其所形容的“覆盖全国、能支撑日均 300 亿元交易额”的物流骨干

网。

因而,阿里巴巴已向数据产业企业成功转型,是一种典型的数据产业企

业经营模式——使用数据创新重塑产业边界,以获得价值创造水平的提升。

8.2.8 产学研合作:大有数据

大有数据的全称是“大有数据产业投资股份有限公司”,是一家在国家工

商总局实行名称预检、总部设在上海的国有企业,成立于 2012 年 6 月,筹建

于美国奥巴马政府《大数据研发倡议》之前,是我国第一家专业数据产业投

资公司。大有数据的运营模式是产学研合作,以京沪两所重点高校为主——

中共中央党校和复旦大学,拟通过领域和行业数据资源的获取、数据技术的

研究与储备,帮助传统产业企业转型、实施数据产业小微企业孵化,以数据

产业企业聚集形成数据产业集聚效益,进而引领中国数据产业的发展。目前,

大有数据现已募集了亿元级产业投资基金,将投资目标暂时锁定在医疗、金

融、交通三大领域中两类企业:一是拥有或可能获取数据资源的传统产业企

业,二是能接受数据科技创新资源分享、有创业意愿的一些小微企业。

产学研合作,是联合国教育、科学与文化组织在 1993 年通过的

UNISPAR(University Industry Science Partnership)计划中“大学、企业、科技

合作”的简称,指的是这 3 个创新主体按照“利益共享、风险共担、优势互

Page 200: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

200

补、共同发展”的原则开展创新活动,以实现“科研-产品-市场-科研”

的良性循环。

根据我国国情,目前尚不能根本解决高校和科研院所与企业脱离问题,

大部分科技研发人员是在高校或科研院所而非企业,因而大有数据选择这种

运营模式是有意义的。然而,产学研结合涉及到一个关键性问题,即“以谁

为主推行产学研合作”。理论上,大学和科研院所并非是理想的,这是因为:

虽然“去行政化”喊了很多年,尽管基层科研工作者有研究兴趣、企业也肯

投资进行产业化,但是仍无法绕开大学或科研院所行政管理体制的束缚,往

往一边是心急火燎、另一边却是不紧不慢。所以,从这个角度,能否做到如

“2011 计划”①所要求的产学研“需求导向,全面开放,深度融合,创新引

领”还有待观察。

可喜的是,大有数据已认识到这点,除了目前在国内联合攻关,还积极

与哈佛大学等顶级高校合作、开展国际间交流合作。

8.3 数据产业企业经营模式创新

在市场化条件下,企业面对的是一种动态环境,是由消费者需求升级或

偏好改变、与竞争对手间竞争互动加剧、技术更新或产业能级改变和涉及政

策法律调整等所导致的,可能会缩短产品生命周期、可能会衰减目标市场规

模。因此,企业必须不断进行经营模式创新来应对。

一般来说,不同产业的企业经营模式创新内容大同小异,大致有:改变

原有战略、调整现有资源、更新陈旧技术和重构竞争力等,其中必须包含领

域或行业的独特性基础。

数据产业企业经营模式创新的独特性,表现在:应用数据创新,改变所

涉及的领域或行业自身乃至传统产业企业的经营理念、管理风格和驱动力。

8.3.1 经营理念

经营理念(theory of business),是以认识自身特征、竞争对手和消费者为

① 2011 计划,全称为“高等学校创新能力提升计划”,是 2011 年由教育部和财政部联合

启动的我国高等教育领域继“211”、“985”之后第三个体现国家意志的战略性计划。

Page 201: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

201

基础的,一般来说大致包括企业使命、基本设想、发展方向、共同信念、行

为规范和经营方针等,并且这种理念与组织本身是否以营利为目的无关。

对于数据产业企业而言,还应有科技预见和使命认识两方面。科技预见,

即找到未来一段时期领域实践和行业应用中数据创新的介入点,在已有资源

条件下设计一定的数据技术线路图来优化原有产业技术、产品和市场及其互

动关系。使命认识,则有两个角度,一是传统产业企业需要认识自身发展的

瓶颈与缺陷所在,不能固步自封,及时利用数据科技升级转型;二是新兴的

数据产业企业需要开阔视野,不应仅着眼于短期的爆发式利润增长,而应细

水长流。

8.3.2 管理风格

管理风格(management style)是一种企业管理者的行为模式,是因组织而

异的,或者有东西方企业文化差异,或者有相似经营理念的不同偏重,甚至

同一组织的不同发展阶段也不尽相同。一般来说,管理风格有很多种分类方

法,如从管理者与下属间关系分成:指令式、教练式、团队式、授权式、愿

景式和参与式;又如从企业文化角度分成:家庭式、铁塔式、导弹式和孵化

式;等等。

对于数据产业企业而言,管理风格大体应偏向于人性化管理,如弹性的

作息制度、宽松的工作环境和独特的组织形式等,并且在管理中尽可能地应

用数据创新。具体来说:在招聘选择上,除了使用简历数据文本挖掘外,还

可以匹配互联网数据核实应聘人真实状况,或者将应聘人关键技能与空缺职

位进行关联分析,使人事决策从“经验+感觉”转向“事实+数据”;在团队

组建上,细分员工偏好、能力,使用挖掘算法将员工的技能、薪资与近期日

程安排等进行最佳资源配置,帮助项目经理轻松组建团队;在任务分配上,

采用错时协作,打破原有“文山会海”的项目运作模式,不再让一些核心骨

干成为“救火队员”;等等。

8.3.3 驱动力

驱动力(driving force),是指因外在作用于接受主体而产生的一种有形或

Page 202: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

202

无形的动力,一般具有强制性,例如,饮食或性欲等内部生物性驱动力、奖

励或惩罚等外部性驱动力等。

对于数据产业企业而言,需要应用数据创新来驱动数据科学家的主动性

与创造力,这也正是数据产业企业核心竞争力之所在。如在人事服务传递中,

从心理动力学角度,找到每个员工各自独特的适应马斯洛人类需求五层次理

论(Maslow’s hierarchy of needs)“生理、安全、感情、尊重或自我实现”归属

需求,及时为其排忧解难、激励创意,形成技术合力,进而从人力资源获得

企业新的创新力。

Page 203: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

203

第九章 数据产业企业聚集

相对偏重于强调产业间联系的产业链研究,产业集群(industrial cluster)

所涉及的范畴更为宽泛,既包括了产业间与产业外联系,还涵盖区位理论

(location theory)的空间集聚。

为了便于说明,这里先澄清一些相关概念,包括:集聚(agglomeration)、

企业聚集(enterprises cluster)、产业集中(industrial concentration)和产业集聚

(industry aggregation)。1929 年,新古典经济学家阿尔弗雷德·韦伯(Alfred

Weber)在《论工业区位》(Theory of the Location of Industries)一书中首次建立

了有关集聚的一套规则和概念[87],并认为“集聚”是一种“空间集中过程”;

企业聚集,则是将企业看成一个独立的生命系统,同时将“企业与企业及其

环境之间的互作”类比成自然界植被或种群分布的动态“群聚”现象,这些

企业涉及的产业可能是不同的;产业集中,指的是某一产业中若干规模较大

的企业聚集;而产业集聚研究的是相同或相近产业在空间上的集中分布现象,

特别注重产业分散到集中的空间转变。

由此看来,产业集中反映的是产业内企业垄断程度的高低,与产业的空

间分布无关;产业集聚未必能形成产业集群,还需要有内在的“企业与企业

及其环境之间的互作”这种联系。因而,企业聚集是产业集群研究的起点。

数据产业同样如此。

9.1 指向性集聚

在波特著名的《国家竞争优势》(The Competitive Advantage of Nations)一

书中[88],有一个“意大利的瓷砖产业”的案例。这些瓷砖厂商主要集中在意

大利北部大区艾米利亚-罗马涅(Emilia-Romagna)的萨索洛镇(Sassuolo)。尽管

瓷砖材料白色高岭土(Kaolinclays)、窑炉、砖板平轧机,甚至最简单的上釉机

都是依赖进口的,因为二战后意大利的重建计划,瓷砖需求剧增,这种市场

的自发力量致使萨索洛地区瓷砖产业地理性集中、形成簇群,除了有模具、

釉料、包装材料、运输服务等支援产业,还有一些小型专业化的咨询顾问公

司等其他相关行业,彼此分工协作,进而形成了世界上最具竞争优势的瓷砖

Page 204: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

204

产业集群。

这就是一种典型的指向性集聚,抽象表示如图 9.1 所示,其中:“虚框”

内所倚仗的某些资源、“叉符”代表消费者某种已知需求、“三角”则代表若

干企业。

图 9.1 指向性集聚

由此,指向性集聚是为充分利用一些区域资源、指向消费者已知需求而

形成的一种企业聚集。

9.1.1 资源禀赋

资源禀赋(resource endowment),指某一区位所拥有的各种生产要素的丰

歉。若一地资源禀赋中某种要素供给所占比例大于别地同种要素的供给比例

且价格相对较低,则是丰裕;反之则是相对稀缺。

根据瑞典经济学家伊·赫克歇尔(Eli Heckscher)及其学生贝蒂·俄林(Bertil

Ohlin)的要素禀赋理论(factor endowments theory),一般产业所能倚仗的某些

区位资源禀赋,大致有:廉价专业劳动力,接近原材料产地、市场集中区或

交通枢纽节点,具有技术溢出或其他示范效应,等等。

相比于传统产业,数据产业是以数据资源开发和数据资产管理为目的的。

由于数据必须依托于存储设备、传输介质等硬件载体,从这个角度,若一些

区位拥有了大量数据中心,则较之其他区位相比,就多拥有了一种独特资源

禀赋——数据资源,进而能倚仗其指向性集聚一些数据产业企业。当然,这

是有前提条件的,即存储了领域或行业数据资源且是可用性的。

Page 205: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

205

9.1.2 需求靶点

靶点(target point)源于地质术语,这里借来用以说明“指向目标”。应当

看到,数据产业企业指向性集聚的靶点是消费者对某一领域或行业数据资源

的已知需求。

比方说,以 2008 年获得美国卫生经济学家协会(American Society of

Health Economists, U.S. ASHEcon)终身贡献奖的迈克尔·格罗斯曼(Michael

Grossman)著名观点“消费者医疗投资或消费需求与所受教育程度有关”[89]

为例。若将此作为一个“需求靶点”,那么同时拥有医疗领域或教育行业双重

数据资源的企业,能选择专门挖掘与两者相关的消费者较深层次需求,为其

他企业提供咨询服务,找到诸如“较长教育年限消费者因更高认知水平而增

加健康或减少医疗需求”等知识;倚仗医疗领域数据资源的企业,有的能为

“增加健康需求”的消费者提供高端医疗精准广告(如基因测序、治未病),

有的能为“减少医疗需求”的消费者提供深层次的健康资讯推送(如疾病自查、

养身汇总法);有教育行业数据资源依托的企业,则能提供涉及医疗或健康的

慕课服务,如针对有生育意向的育龄女性提供母婴知识课程等,进而形成了

一些数据产业企业的指向性聚集。

9.2 驱使型集聚

驱使型集聚,指依赖某些外生条件的效果或作用而构建的企业聚集。典

型的有:政府政策导向或行政部署的分拆力所导致的克罗地亚造船业中小企

业聚集,国际跨国资本投资形成的香港金融企业聚集等。

一般来说,外生条件是多种多样的。在这方面研究中,有的学者[87]使用

凝聚因素(agglomeration factor)和分散因素(disagglomeration factor)进行分析,

有的使用“向心力或离心力”①表述,还有的甚至直接套用“万有引力”②。

总的来说,聚合力大致有:能人示范、分工与专业化、技术溢出、类同文化

和创新系统等,而分散力则有:人口拥挤、地价攀升、市场约束、技术中断、

过度竞争和资源受限等。

① http://www.doc88.com/p-14761108824.html.

② http://wenku.baidu.com/view/be0e31d73186bceb19e8bbc8.html.

Page 206: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

206

对于未来将会产生数以万计的“小而精”或“快而准”企业的数据产业

而言,如何驱使这些小企业类似“星系”般吸引、摩擦、碰撞,以此集聚并

加速演化,是值得研究的。目前来说,至少应有人力、财力和科技力这 3 种

必要外力形成合力。

9.2.1 劳动力

外生条件中的人力,即劳动力,是一种“存在于人身上的社会财富创造

力”[90],这对任何产业都是极其重要的,数据产业同样没有例外。一般来说,

数据产业企业会选择在人口素质较高、有“群体学习行为”的地区落户。

由于同样具有高技术含量、高渗透性等特征,为了便于理解,这里将数

据产业企业与传统的软件行业企业进行比较,主要有 3 方面。

首先,在劳动力构成上。软件行业企业一般有 3 种层次的劳动力:一种

是既懂技术又懂管理的,一种是基础理论扎实、能进行架构设计与系统分析

的,还有一种则是由职业技术院校培训的所谓“软件蓝领”。而以来源庞杂、

非结构性强的海量数据为开发和应用对象的数据产业企业,还额外需要数据

科学家。数据科学家是需要面对数据和用户的,主要有两部分工作:一是使

用数据敏锐观察力去发现数据合适的处理方法,二是设计新的或优化已有的

挖掘算法找到“隐藏规律”以支持领域专家的业务应用。数据科学家一般应

拥有计算机科学(特别是数据挖掘研究方向),或者数学、物理学、统计学、

生命科学、社会科学等对数据分析与处理技能有相关高级学位;同时具备技

术、商业和关系等复合型技能。

其次,在劳动力成本上。软件行业企业的创作开发一般是有组织、需要

精细分工的,特别若涉及大型系统开发往往需要整个团队历经数月甚至数年

的协同工作,因而技术骨干的流动所带来的风险很大,人力资本重于物质资

本;而数据产业企业则是直接面向用户数据、偏向于领域或行业应用的,期

间需要数据科学家从零开始进行开发的算法很少,同时开源工具、众包协作

等大大延展了边界,许多对数据充满激情的业余分析师也能充当这些企业的

临时员工或合作伙伴,因而数据产业企业的劳动力成本明显偏低,劳动力供

求关系平衡度较好。

Page 207: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

207

第三,在劳动力竞争性上。软件行业企业之间的竞争是相当激烈的,并

且这种激烈竞争往往会表现在多个软件行业企业对某些具有较多开发经验的

高级软件架构师、工程师争夺上;而数据产业企业虽然对数据科学家有迫切

需求,从应用角度,不同的数据科学家能以各自数据观察角度挖掘出有差别

却同样有用的“隐藏规律”,并非是“缺某人不可”。

9.2.2 资本

外生条件中的财力,即资本,这里所考虑的是一个广义投资存量的概念,

包括货币和实物资产的投资。与之相对应,投资取得的是资本报酬,一般来

说,资本报酬是有风险性的,投资者可能获得超过资金时间价值的额外收益,

也有可能损失。

以企业外部资金来源的角度,大致有两种:一是债权资本,一是股权资

本,债权资本大多来自金融机构,股权资本则可被分为公募(public ffering)和

私募(private placement)两类。对于新创企业来说,其普遍的高风险性与银行

审慎的保守性无法匹配,同时企业规模又很难达到公开上市标准,因而债权

资本和股权资本公募通常不能成为其主要融资手段,一般会更多地依靠由

3F(founders, family, friends)、政府投融资机构、天使基金、创投企业、战略

投资者等[91]所组成的创业融资体系(venture financingy system)以实现股权资

本私募。

从风险私募的投融资策略来看,这些投资主体主要是根据新创企业在创

意到上市的成长过程中的风险度,来选择各自适合的投资阶段和投资手法,

其间还有必要的管理输出等。这种风险度评估,一般需要历经创业者团队约

谈、商业计划书分析、实地走访、向第三者咨询和市场调研等较长论证过程。

由此,对“短、平、快”为目标的数据产业新创企业而言,投向明确、

具规模效应和能快速鉴别技术含金量的专业产业投资基金,比目标选择宽泛、

涉及产业分散和需要反复论证的风险私募,有更大的吸引力。另外,专业投

资基金的首轮投入还有三方面优势,一是有利于帮助新创企业吸引到后续投

资支撑,二是有利于建立自身合理的退出机制、合理循环产业资本,三是有

利于构建新的商业模式,推动产学研进程或催化数据科技成果。

Page 208: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

208

9.2.3 技术

外生条件中的科技力即技术,之所以其能成为推动力,是因为具有完成

商业化过程的内在特性。缘于此,不少人认为:市场经济下企业成为创新主

体,才是技术能否直接服务经济和社会发展的关键。然而,从现实来讲,这

只能算是一种愿景。

当下,许多中小企业面临“朝不保夕”的生存危机,要在原本就异常薄

弱的资金链上截取一块进行持续地“科技投入、研发实施和产出转化”,大多

数都不太愿意做。

在熊彼特看来,企业虽然需要“创新”,却也是一种“引进”式的“组合”

创新。因而,技术行为的首创性创新,是应与经济活动的盈利性创新分离的,

即由企业负责后者、高校和科研院所完成前者,才能使首创性技术创新成为

一种外力,甚至是一种能吸引、黏合多个企业的集聚外力。

与其他技术转化、应用和创新相比,数据技术大致有以下区别:一是直

接面向企业,与其他技术转化需要提供诸如专利设计、技术专有、图纸、论

证报告、试产品和管理方案等书面研究成果相比,数据技术能让企业更多地

看到应用实效。二是直接面向数据资源,与其他技术应用需要对企业进行劳

动、资本、组织或制度等综合遴选相比,数据技术能以新颖的数据产品和显

见的商业价值进行公开招投标,针对的仅是有创业或业务突破意愿的自然人

与企业。三是直接面向消费者需求,与其他技术创新较快的更新速度相比,

数据技术创新过程所面临的技术、市场和经营 3 类主要风险较小。

9.3 共生态集聚

共生(symbiosis)的概念最早是由现代真菌学创始人、德国生物学家海因

里希·狄百瑞(Heinrich de Bary)在 1879 年提出的,指的是由于生存需要,多

种生物按照某种模式相互影响、互为作用而形成的一个依存系统。一个多世

纪以来,对“共生”的理论研究已渐由生物学领域渗入与延伸到社会、经济

各个领域,用来探讨各种组织共生状态所带来的发生发展规律、同环境相互

作用,以及互补与创新等诸多问题。

Page 209: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

209

共生态集聚,指在一定的价值链下以共同生存和协同进化为目标而集结

的企业聚集。这种企业聚集主要受到企业个体适应度、所处市场环境以及与

其他企业之间竞合关系等三重因素的影响。根据形成机理,能被划分成两种:

一种是实体共生态,如有亲缘、业缘和地缘关系等;另一种是虚拟共生态,

即发展成网络衍生。

9.3.1 实体共生

实体共生,是以利益驱动和竞合平衡为演化与发展机制的。企业间某种

有利的关联关系是这种共生系统建立的初衷;在共生系统确立后,企业个体

并非是自我独立的,而是一种成员企业间资源互补、互惠合作的博弈过程,

这种过程是在对彼此的任务或愿景有深度理解基础上的。

一般来说,实体共生有 3 种形态①,分别是亲缘共生态、业缘共生态和

地缘共生态。亲缘共生态的成员企业应具有亲缘关系,如母子企业、兄弟企

业等,由于这种关系的存在,这些企业很容易相互接纳、共享利益;业缘共

生态,一般由同一产业链的上下游有业务往来的成员企业构成,这种共生关

系的目标是节约各种成本、减少市场风险,以期提高彼此经济效益;地缘共

生态,则是由在某一共同区域中能共享公共资源和环境成员企业所构成的,

这往往是成员企业自身个体需求选择的结果,合作形式呈现多元化。

从积极培育战略性新兴产业的角度,将数据产业与传统产业结合起来形

成实体共生发展,实为上策,既能解决传统产业企业因没有关键或核心技术

所遭遇的升级和转型瓶颈,又能改善数据产业企业因没有具体应用点所面临

的窘迫生存境遇。具体来说,这些小而精或小而强的数据产业企业都是具有

灵活性、适应性和数据科技创新性的,能针对传统产业企业,如超市、出租

车公司或钢铁企业等的诸如深化管理、提高质量、增加品种、降低能耗物耗、

治理环境、安全生产和提高装备效率等问题分工协作、各个击破。

因而,在措施上通过政府引导,分地域由传统产业龙头企业牵头建立“一

对多”的实体共生态战略联盟,比单纯组织数据产业企业建立起“有竞争、

无合作”的行业协会,效果要好很多。

① http://wap.cnki.net/qikan-XSLT201206032.html.

Page 210: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

210

9.3.2 虚拟衍生

虚拟衍生,超出了亲缘、业缘和地缘联系,是一种通过某种机制、依托

网络所建立起来的松散耦合共生系统,类似地缘共生态,虚拟衍生同样是成

员企业自身个体需求选择的结果,其实质是选择所有与自己有利益关联的企

业进行外部资源优化整合,以形成一个敏捷的虚拟企业(virtual enterprise)。

正如美国《商业周刊》 (BusinessWeek)前执行总编约翰·拜恩 (John

Byrne)1993 年在他那篇探讨虚拟企业的经典文章[92]中所指出的,相对于实体

企业,“虚拟企业是由多个企业快速形成的暂时联盟,以追求最大适应性为目

标”。组成这种虚拟企业的成员企业是以各自“核心能力”来负责互为独立的

业务过程的,实现的是技能共享和成本分担,目的在于能快速抓住市场机遇,

特点在于:其一,突破了企业的有形界限①,既没有组织无边界,也没有组

织结构;其二,暂时性组合能避免帕金森定律②所定义的“大企业病”。

数据产业企业的这种虚拟衍生集聚,同样是需要数据创新的,总的来说,

是在获取个性化或多样化的消费者需求驱动下,围绕数据产业链多种环境要

素,选择合适的合作伙伴,依赖知识生产机构,获取新的互补的技术或资产、

分散创新风险、克服或构筑市场壁垒,形成敏捷“制造”,低成本、高质量地

推出新的数据产品。

9.4 轮轴式集聚

轮轴式集聚,指的是围绕一个或多个关键企业所形成的企业聚集,由于

这种关键企业与其他企业之间有上下游投入产出关系,从结构上看有些像汽

车的轮子和轴,故有此称谓。通常,这种关键企业就是总部经济(headquarters

economy)。

① http://166.111.121.20:9080/mathjournal/XTLL200210/xtll200210009.caj.pdf.

② 1958 年,英国历史学家、政治学家西里尔·帕金森(Cyril Parkinson)所得出帕金森定律:

在行政管理中,行政机构会像金字塔一样不断增多,行政人员会不断膨胀,每个人都很忙,

但组织效率越来越低下。

Page 211: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

211

9.4.1 垂直领导

美国的底特律汽车城和匹兹堡钢铁城都是典型的轮轴式集聚,这种企业

聚集特点在于:其一,若干关键企业与其他企业之间有明显的等级制度,是

一种垂直领导;其二,整个企业聚集的绩效依赖于少数关键企业的绩效,一

些大型企业的衰退将导致整个城市的发展停滞。

19 世纪初期前后,借助制造业的兴起,占据 5 大湖水路战略地位的底特

律和有 3 条河流汇集的匹兹堡,分别建市,开始稳步发展。而后,福特、通

用、克莱斯勒等大型汽车企业相继将总部迁入底特律,美国钢铁公司、西屋

电气公司、美国铝业公司等系列重工业和钢铁企业在匹兹堡设立总部。20 世

纪 50 年代,两个城市开始分化,底特律持续发展汽车产业,匹兹堡则开始进

行环境整治、制订多元化地区政策在卡内基梅隆大学和匹兹堡大学的带动下

发展新兴产业。目前,曾经拥有 185 万规模人口的美国第四大都市底特律在

持续遭遇石油危机、金融海啸之后,萧条加剧,企业停产、工人失业,人们

开始逃离,这座城市正面临破产;而匹兹堡则形成了生物医药、机器人和金

融等高科技产业企业聚集,并在 2009 年和 2010 年分获评美国《经济学人》

和《福布斯》的“美国最适宜居住的城市”称号。同样是轮轴式集聚,底特

律把“命运寄托于个别企业”①,将创新能力表现为一条“长臂”,其他企业

只能被动吸收“长臂”带来的外生技术创新;而匹兹堡则适时放弃了这种企

业聚集方式,以外力驱使带动中小企业参与创新,获得了动态竞争优势。

在有数据产业企业介入的垂直领导型轮轴式集聚中,“轮”和“轴”的定

义将互反,所形成的是一种由众多数据产业小企业形成合力引导或推动一些

传统产业关键企业升级转型的新方式。

9.4.2 增长极辐射

增长极(growth pole),是从法国经济学家弗郎索瓦·佩鲁(François Perroux)

“部门极化理论中推动单元所引申出来的一个概念”[90],即增长极是某一有

支配作用经济空间形成的力场中的推动单元。

① http://bjwb.bjd.com.cn/html/2013-07/20/content_91961.htm.

Page 212: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

212

在我国,近年来企业总部被各级政府所看重,并将“大力发展总部经济”

作为加快地区经济发展的一个重要战略。然而,对于一些二线城市而言,迫

于政绩压力,对总部经济的引入兴趣远大于培育,这里存在两大问题:一是

今年所引进的总部经济很可能明年就被其他城市挖走,二是从国家层面来说

经济总量并不会因为个别企业的异地迁徙而发生变化。这种“你争我抢”的

掠夺式发展是值得我们警惕的。将总部经济看作增长极,采取地方政府间跨

区域合作,以技术辐射带动网络状的转移、吸纳、整合、协同、反馈等循环

互动,可能对解决此问题会有所帮助。

数据产业增长极辐射的本质是一种结合地区特色的企业培育。以出租车

行业为例,有数据创新的出租车公司能从分析和挖掘出租车这种城市典型移

动对象的历史轨迹数据中,直接理解人们的各种社会活动、间接把握城市动

态性。这种增长极辐射可表现为:引入案例经验,结合当地出租车轨迹线数

据数据改进算法,帮助技术输入城市以相似领域应用来找到本地驾驶员偏好、

乘客出行习惯或交通拥堵热点,其可看作是一种当地出租车企业的培育过程。

9.5 归核化集聚

归核化 (refocusing),是由英国学者康斯坦丁·马凯兹 (Constantinos

Markides)1990 年在其博士论文中率先提出的,虽然归核化经常会出现在多元

化的对立面,但其并不是简单的反多元化,而是对过度多元化的一种修正,

目标是提高整体竞争力。

尽管马凯兹所描述的仅是单个企业的“降低多元化水平的公司战略或动

态过程”[93],但对于企业聚集而言,归核化同样重要,无核多元化所集聚的

“只有企业”而“没有产业”。

9.5.1 CBD 内核

在全球一体化进程中,中央商务区(central business district, 以下简称

CBD)这一较有活力的城市经济中枢,通常被视作是一个城市、一个区域乃至

Page 213: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

213

一个国家的现代化象征与标志①,如纽约的曼哈顿、巴黎的拉德芳斯、东京

的新宿和香港的中环等。

一般来说,CBD 空间形态(如区位、布局等)和社会结构(如自然环境、历

史背景、经济基础、社会文化等)的不同内聚力已被认识到。例如,被誉为“世

界级城市规划大师”的英国学者彼得·霍尔(Peter Hall)曾指出,CBD 应是功

能复合、生态型和人性化的,也就是说,既有商务区,也有混合功能区和居

住区,不但能完成各种商务活动,还能进行娱乐、购物、健身,内设具有浓

厚文化氛围的人性化社区。目前另外还有一种共识,那就是 CBD 应是装备

数字化的,即以物联网、云计算等新一代信息技术来改变其内部人群交互方

式,对民生、保障和公共安全等各种城市服务需求智能相应,是一种“智慧

城市”。

然而,只有硬件布局、没有数据创新,能真正得到“智慧”么?答案是

否定的。因而,在未来城市的建设中,如上海的世博、迪士尼、大虹桥、前

滩、徐汇滨江和临港新城等六大板块,应考虑到这点,而不应片面追求总部

效应、无序招商“拼出写字楼”导致 CBD“空心化”。

9.5.2 核心应用

将信息产业和数据产业这两个互逆产业的企业放在一起进行比较,两者

较为明显的区别在于:一是在提供产品上,前者的通用性强、价格昂贵,而

后者则针对性强、价格相对低廉。二是在业务开展时,前者一般是“单打独

斗”的,而后者经常“群起围殴”。

以甲骨文为例②,其所提供的数据库系统堪称一流,然而面对诸如

Workday 等成群小规模数据产业企业的围攻,则明显有些力不从心,甚至在

考虑是否要削减数据库服务支持业务,这是因为:对消费者而言,稍有瑕疵,

但应用针对性强、使用简单且价格低廉的数据产品仍不失为好的数据产品。

从这个角度说,专业分工、精于应用的数据产业企业所形成的企业聚集

是有“核”的,这种核心应用,有时是基于某一领域或行业数据资源,有时

① http://baike.baidu.com/view/139069.htm.

② http://tech.163.com/13/0720/11/947MRFVA000915BD.html.

Page 214: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

214

则是围绕一个或多个传统产业企业,并且这种“核”能在短时期引发的该领

域或行业的商业或管理变革,进而拉动地区乃至区域经济的快速增长。

Page 215: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

215

第十章 数据产业集群效应

产业集群并非是企业的简单堆砌,而是“集中于一定区域内特定产业的

众多具有分工合作关系的不同规模等级的企业与其发展有关的各种机构、组

织等行为主体,通过纵横交错的网络关系紧密联系在一起的空间积聚体,代

表着介于市场和等级制之间的一种新的空间经济组织形式”①。

这种产业集群一旦形成,将在内部通过分工竞合实现资源共享或技术扩

散,使用较低的交易成本获得较高的制度收益,从而形成巨大的外部竞争优

势,进而影响区域乃至国家的经济、政治、社会和文化。因此,产业集群的

正负效应及其影响因子分析是产业集群研究的核心任务。

对应产业集群的生命周期,虽然当前数据产业集群尚未成形,但从前一

章梳理的数据产业企业各种聚集方式视角,预期集群可能的正、负效应,扬

之所长、避之其短,能在一定程度上帮助这种新兴产业集群形成,同时不必

一味仿效其他产业集群。

10.1 外部经济

外部性(externality),一直是新古典经济学和新制度经济学的重点研究对

象,分外部经济和外部不经济两种,是以企业从外部获得规模经济(econonmy

of scale)和范围经济(economy of scope)的角度来理解产业集群形成及其市场

效率的方式。这方面研究大致有三大里程碑②,分别是:马歇尔的“外部经

济”(external economy)理论、庇古的“庇古税”(Pigouvian taxes)理论和科斯

的“科斯定理”(Coase theorem)。

在当代经济学创立者、新古典学派创始人阿尔弗雷德·马歇尔(Alfred

Marshall)看来,外部规模经济正是产业集群形成的原因。马歇尔的弟子、“福

利经济学之父”亚瑟·庇古(Arthur Pigou)在马歇尔“外部经济”的概念上扩

充了“外部不经济”,认为应向负外部性行为“征税”。新制度经济学鼻祖、

1991 年诺贝尔经济学奖获得者罗纳德·科斯(Ronald Coase)批判了庇古税理

① http://baike.baidu.com/view/30918.htm.

② http://baike.baidu.com/view/682663.htm.

Page 216: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

216

论,认为自愿协商能代替庇古税手段解决外部性问题。

因而,从外部经济角度理解对于数据产业集群形成的根部动因、衡量这

种正待成形的新兴产业集群是否有生存能力、能否得以持久发展,是很有意

义的。

10.1.1 外部规模经济

作为外部经济的一种表现,外部规模经济(extemal scale economy)反映的

是生产规模和平均成本之间的关系。在市场不确定性增大时,企业内部规模

不经济,则会向外延伸或剥离,依靠与其他行为主体联合扩大生产,来降低

平均成本、实现报酬递增。

就一般产业集群而言,这种集群效应利用的是集群内企业的空间接近性,

通过合作或建立联盟等方式,使用资源或成本分摊,在不增加企业本身规模

基础上的产业规模加大,并且此类产业规模是以同种产品生产数量增加为衡

量标准的。

鉴于数据产业集群目前还未形成,无论是数据产业企业需求靶点的指向

性集聚,还是虚拟衍生的共生态集群、核心应用的归核化集聚,由于数据产

品的定制或精准性需求,均不是以大规模生产同种数据产品为方向的,因而

一定程度上,外部规模经济并非是数据产业集群形成的主要成因。然而,数

据产业集群一旦成形,这种效应却不可小觑,这表现在某一款数据产品的跨

领域或跨行业的应用前景,比如围绕出租行业历史轨迹数据所生产的各种数

据产品,规模化生产后,能让医疗、旅游或物流等领域或行业受益,用以提

高急救车效率、改善景点拥挤和加快货物配送等;同样,基于医疗数据资源

生产的数据产品,如分时健康预警,能让旅游等行业获利。

10.1.2 外部范围经济

外部范围经济(extemal scope economy)是外部经济的另一种表现,美国著

名企业史学家艾尔弗雷德·钱德勒(Alfred Chandler)曾明确给出其定义,即“联

合生成和联合经销的经济”[94],简单地说,就是专业化分工生产多于一种的

产品,其强调了产品的多样性。

Page 217: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

217

这种集群效应是非集群和集群外企业所无法拥有的,即:集群内企业通

过专业化分工将生产系统被肢解为许多部分,协同参与价值链上多样化产品

的生产,再建立合作的网络进行高频度交易,具有成本弱增性、分工灵活性、

产品创新性和风险共担性等特点。

预期数据产业集群的外部范围经济,可以从两方面理解:一方面,在形

成动因上,从数据产业企业实体共生的共生态集聚、垂直领导的轮轴式集聚

和核心应用的归核化集聚来看,这种效应是促使未来数据产业集群形成的一

个必然因素,其原因在于,集群内企业基于某一领域或行业数据资源,或者

围绕一个或多个传统产业企业,将会有高度的专业分工协作,所进行的是不

同的多种数据产品生产。另一方面,在未来表现上,集群成形后的外部范围

经济是一种跨地域限制的效应,不论是资源禀赋和需求靶点的指向性集聚,

还是虚拟衍生的共生态集聚和增长极辐射的轮轴式集聚,数据产业企业将不

再以地理因素作为第一考量,甚至会突破国家这一限制。

10.2 内部经济

马歇尔经济学为我们所阐释的内部经济(internal economy)的成因是:在

单个企业规模扩大时,如出现集团公司,能利用自身的资源、通过组织及其

管理效率来减低成本、增加收益。这里的企业规模有两种衡量标准①,如图

10.1 所示,一种是横向的,即重复生产同种产品的数量大小,另一种是纵向

的,即所包含的生产环节数量。

纵向

横向小 大

大而全

小而精

图 10.1 企业规模的衡量 307

① http://wenku.baidu.com/view/1540fc67f5335a8102d22074.html.

Page 218: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

218

从产业集群的角度,集群内部规模经济的实质是企业外部规模经济的内

部化①,大致能通过两条途径来获得:一是内部规模扩展获得单个企业的规

模经济,二是通过价值链获得集群内部的规模效应。

相对于其他产业集群,数据产业集群内企业规模一般较小,所以数据产

业集群的内部经济将会更多地依赖第二种途径,而影响这第二种途径的关键

因子有两个,分别是:竞合关系和协同效应。

10.2.1 竞合关系

理论上,企业之间关系有两种[95]:一种是竞争行为,一种是合作行为。

1996 年,哈佛和耶鲁两大商学院的管理学教授亚当·布兰登勃格(Adam

Brandenburger)和拜瑞·内勒巴夫 (Barry Nalebuff)共同提出了企业竞合

(co-opetition)[96]的概念,即打破原有单纯的竞争或合作方式,从对抗式转向

协同式,在竞争中合作、在合作中竞争,其实质是一种利益博弈,强调的是

能力贡献与利益回报的动态均衡。目前,产业集群内部企业之间的这种竞合

关系,已延伸到与其发展有关的企业、机构和组织等多个行为主体之间。

一般的集群内竞合关系有 3 个特点[97]:其一,合作行为是前提,集群内

企业与其他企业、机构或组织间的竞合关系是以合作为基础的,目标是形成

优势互补,如从互补角度实施双方或多方的合作计划,或者以互补型技能或

资源推动双方或多方的经营绩效等。其二,共赢是竞争行为的结果,尽管在

已形成的竞合关系中,若一方极度强势会削弱以此形成的竞争力,但是这种

博弈是始终存在的。其三,市场是调合竞合关系矛盾的关键,布兰登勃格和

内勒巴夫描述的原句译文是“当共同创建一个市场时,商业运作的表现是合

作,而当进行市场分配的时候,商业运作的表现是竞争”②。

应当看到,以数据产业企业共生态集聚和轮轴式集聚为例,虚拟衍生与

增长极辐射是一般产业集群内部竞合关系;而实体共生与垂直领导势必在集

群内会存在其他产业企业,额外多了一种数据产业企业与传统产业企业之间

的竞合关系,表现为:在帮助传统产业企业升级转型时,是合作关系;而若

① http://www.nssd.org/index.php/Index/content/PaprID/36-1001-C_2012007_I_0008.

② http://baike.baidu.com.cn/view/1392910.htm?fromTaglist.

Page 219: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

219

占据了市场,则可能会有竞争行为,如图 10.2 所示,其中:“叉符”代表在

数据产业集群内共生的传统产业企业、“三角”则代表数据产业企业。

竞争

合作

合作合作 竞争

图 10.2 数据产业集群内的竞合关系

据此,未来数据产业集群的竞合关系有以下特点:一是集群内企业与其

他行为主体间的竞合关系,这是由专业分工协作造成的;二是数据产业企业

联盟与传统产业企业的博弈;三是市场的不确定性增加,对于各种竞合关系

的矛盾需要结合实际情况辨识究竟是加剧还是调合。

10.2.2 协同效应

协同效应(synergy effects)①,寻求的是分力之和大于分力的简单相加,或

者说,“1+1>2”的效应。将产业集群视作一个系统,集群内企业由于协作而

获得大于单个企业收益的,即集群协同。

相比其他产业,数据产业具有资源、技术和资金依赖性大,产品应用性

强,专业分工明确和群体化特征明显等特点,因而,未来数据产业集群的协

同效应既有其他集群协同效应的一般性,又有自身的特色,有以下 4 个方面

的表现。

1.资源协同

由于数据资源是数据产业的一项特殊的核心资源,从数据资源占有的角

度,没有哪家数据产业企业能够长期、完全拥有某一领域或行业的数据资源,

尽管有相似的数据技术,仍很难单纯依靠企业自身能力获得竞争的主动权,

① http://baike.baidu.com/view/61326.htm.

Page 220: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

220

因而将会在未来的集群内进行优势互补,在放大或提高集群整体收益的基础

上,提高个体收益。

2.制度协同

一般来说,信任机制、知识共享机制等是产业集群发展和演化所共有的

核心制度,这将会在未来的数据产业集群中表现得更为明显,这种集群内行

为主体需要共同遵守的行为规范能加强在竞合中的信任度和沟通力。例如,

围绕某一款高级数据产品定制,不同分工的企业、机构或组织等行为主体能

适时进行“面对面交流”,扩展隐性知识、共享创新成果,在相应节省某一行

为主体交易成本的基础上,节省整个集群的成本。

3.聚集协同

应对激烈的外部环境,在集群内,各种行为主体的集聚能形成创新合力、

分担风险,未来的数据产业集群也一样。比如技术力驱使型集聚,在缩短研

发时间、降低研发成本和分散研发风险的诉求下,企业会从技术自给转向技

术合作,向可提供先进技术的组织进行合作联盟,如大学或科研院所的数据

科技及其产业研究机构,获取能尽快产业化的数据科技;又如垂直领导的轮

轴式集聚,在避免研发盲目性、重复劳动和浪费资源的诉求下,未来集群内

有竞合的企业进行互补或关联型专业分工,各自选择应用点生产数据产品。

另外,一些有号召力的数据科学家、风险投资商,以及其他中介、行业协会、

检验认证机构等同样对企业聚集有积极推进作用。

4.冲突协同

好的冲突解决方案及其有效实施,能规避恶性竞争、促进合理竞争,有

了企业在成本、价格、技术、特许、质量、人才和管理等方面的全方位合理

竞争,会激励后进企业数据创新,同时又迫使前者企业进一步创新,如此循

环将有利于未来整个数据产业集群的良性发展、互动耦合。

10.3 交易成本

如同物理学界总是希望“无摩擦力运动”那样,经济学界一直在试图降

低交易中的成本,事实证明:产业集群是能够降低交易成本的。

从交易成本节约角度对集群进行分析的有 1991 年和 2009 年两大诺贝尔

Page 221: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

221

经济学奖获得者:提出概念的科斯和进行系统化工作的奥利弗·威廉姆森

(Oliver Williamson),他们认为:集群这种层级式企业组织和纯市场组织之间

的特殊形态[95],所形成的生产协作网络能降低交易成本并保护合作,有利于

提高企业的创新力和灵活性。

科斯分析产业集群成本效应的角度是与企业进行规制结构比较,两者的

差别是:企业是有“组织规模边界”①的,在企业内部进行资源配置所花费

的是管理成本,企业规模越大管理成本就越高,当这种管理成本等同于市场

交易费用,“企业替代市场”就停止了;产业集群则不同,是没有“围墙”的,

集群的规模越大、越能获得外部规模效应。

威廉姆森则是使用事前和事后两种区分法:事前费用,用来事先确定交

易各方的权利、责任和义务,这种明确过程所花费的代价是与交易各方产权

结构明晰度有关的。事后费用,则有 3 种,一是维持成本(holding cost),即

交易各方为维持长期竞合关系所付出的成本;二是变更成本(changing cost),

即交易各方发现事先确定的交易事项有误所花费的变更代价;三是违约成本

(enforcement cost),即交易各方因取消交易协议所支付的费用和机会损失。

考虑到未来数据产业集群内企业具有“小而精”、“快而准”等特点,这

里对组成交易费用的分工成本、监督成本和机会成本进行分析。

10.3.1 分工成本

从经济学分析来说 311,分工和交易两个概念是有联系的,一般是有了分

工才需要交易、有了交易才可能发生分工。所以,以分工成本角度进行分析

集群成本效应是很有意义的,大致有两点。

首先,对应不同规制结构,分工成本所占比重不同。在企业内部,由于

分工成本是被包含于管理成本之中的,故从企业规模直接取决于内部组织的

扩展或收缩可知,分工成本占管理成本的比重较大;而在集群内部,分工成

本则独立于管理成本之外,同时增加交易频率能直接降低分工成本。

其次,结合集群内企业分工所涉及的 4 方面,具体分析如下。一在分工

对象的选择上,集群内的制度安排能帮助交易各方共享契约执行与意见表达

① http://wenku.baidu.com/view/ae7520170b4e767f5acfce3c.html.

Page 222: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

222

的方式,或者利于缔约活动中许多无法明确的权责利处理,较大程度地减少

寻找潜在分工对象的花费。二在分工任务界定上,因为集群内企业在价值链

上布局较为合理,或者规模小而产权相对清晰,能较纯市场组织容易进行谈

判以进一步界定交易各方之间互补竞合所应耗费的成本。三在资源分享上,

集群内各种资源的产权是具有排他性的,正是这种排他在价格机制作用下所

带来的效益,促进了集群内企业的自由转让,这里的资源分享在未来的数据

产业集群中还表现为共享数据资源。四在资产共用上,能打破资产专用性,

使更多企业共用一些较为昂贵的基础设施或设备,相对来说,有越多的企业

使用,设施或设备的闲置费用就越低。

10.3.2 监督成本

一般来说,大企业的监督成本是很高的,并且这是一种随着企业规模扩

大而增加的成本。这是因为:企业规模越大,雇员会越多,而雇员之间产生

的相互作用也会增加,需要加大协调行为。比方说,某企业内有 4 个员工,

企业则需要派遣额外的 2 个人手去协调这 4 人之间的关系,这种相互作用的

计算公式为: 2)1( −nn 。

对产业集群来说,一则其间的企业竞合是靠价格机制来维系的,集群内

企业没必要将很多生产活动进行内部化;二则使用多样化来规避竞争,通过

专业分工进行最具优势的生产活动是大多数企业的偏向性选择;三则需要经

常提高交易这种能满足竞合关系中彼此需求的频度,因而,集群的监督成本

很低。

特别地,在未来数据产业集群内,如在实体共生的共生态集聚和垂直领

导的轮轴式企业集聚中,基于某一领域或行业数据资源,或者围绕一个或多

个传统产业企业,进行多种数据产品提供,是并不需要对其他企业实时监督

的。因为,在这些多种数据产品上只存在:应用广度上有关联性的支持创新,

或者应用深度上有专业分工的协作。

Page 223: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

223

10.3.3 机会成本

机会成本(opportunity cost)①,又称择一成本,是由两部分组成的:显性

成本,即付给资源拥有者的货币代价;隐性成本,即放弃的其他可能性所应

得的最大回报的货币代价。

将任何产业集群与非集群和集群外企业比较,集群内企业机会成本较低,

主要有两方面原因:一是信息传播快速和彻底,集群内企业因分工沟通、竞

合谈判等原因有较多的接触机会,再加上制度协同中的信任机制,使能导致

机会成本加大的信息不对称因素影响力减弱。二是受有限理性控制,集群内

企业之间的合同或协议会相对简单,这是因为,在由市场或企业配置或协调

的经济活动中,签订协议双方互信度较低,只能在有限理性条件下列举和理

解未来,经常会制订较为复杂的合同并包含一些对某一方不利的条款,而集

群内企业间则不会如此。

10.4 竞争优势

波特在解释其“钻石理论”(diamond model)时曾指出②:传统经济理论,

诸如外部性、古典经济学家大卫·李嘉图 (David Ricardo)的比较优势

(comparative advantage) 等 理 论 , 都 不 能 说 明 产 业 竞 争 力 (industrial

competitiveness)的来源,这是因为这些理论“虽有各自重要性,但并没有回

答我们关心的竞争优势问题”,应构筑一个全新的研究体系、采用竞争优势理

论来解释产业竞争力问题。而后,波特在 1998 年 11 月的《哈佛商业评论》

上撰文[98]阐述了集群影响竞争力的 3 个途径③:首先,提高该区域企业的生

产率;其次,指明创新方向和提高创新速率;第三,促进扩大和加强集群本

身的新企业建立。

所以说,从竞争优势角度分析数据产业这一新兴产业集群,有利于营造

① http://baike.baidu.com/view/26400.htm.

② http://baike.baidu.com/view/1392773.htm.

③ 原文:Clusters affect competition in the three broad ways: first, by increasing the

productivity of companies based in the area; second, by driving the direction and pace of

innovation, which underpins future productivity growth; and third, by stimulating the formation

of new businesses, which expands and strengthens the cluster itself.

Page 224: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

224

集群环境,通过群内的生产力对群外企业所施加的影响,促使集群内新企业

的产生,进而形成和扩大集群的规模与影响。

10.4.1 创新绩效

近年来,演化论(theory of evolution)和组织学习(organizational learning)

等理论对创新的持续影响,已使“创新是一个个体与群体共同参与的演化过

程”①成为共识。联合国工业发展组织(United Nations Industrial Development

Organization, UNIDO)曾做过专门研究②,发展中国家集群内部的创新结构是

决定创新绩效的较重大因素。这是因为:只有极小部分创新所需知识是来自

企业内部,大多数关键性创新不可能由单个企业完成。这种集群创新绩效效

应同时表现在供需两方面:从供给看,能直接促进分工、间接在某一专业领

域建立知识积累;而从需求看,则能促进在本产业领域建立市场优势,进而

形成规模效应。

同时,加州大学伯克利分校的安纳利·萨克森宁(AnnaLee Saxenian)[99]

和卡内基梅隆大学的瑞·巴普蒂斯塔(Rui Baptista)等人[100]的研究也证明了集

群化对于创新绩效的明显促进作用。萨克森宁举的例子是:在硅谷,向竞争

对手求助解决某一技术难题是很常见的,一般来说同行也愿意帮助,这种交

流使得集群内企业在创新上有一种独特优势;而巴普蒂斯塔等人则认为:集

群效应能缩短新创新的反馈回路,使企业不用承担全部的创新费用和风险,

即是一种被大卫·蒂斯(David Teece)等人[101]称为良好协调(well coordinated)

的集群式创新(clustering innovation)的新模式。

未来数据产业集群的这种创新绩效是很明显的。综合前文分析,进行数

据资源开发应有多个阶段的创新:在第一阶段,某一传统产业企业开始有意

识进行数据开发,此时在本企业或专业数据产业投资基金的推动下,大学与

科研院所的数据科技及其产业研究机构先期介入进行创新;在第二阶段,围

绕第一轮数据科技成果产业化,由资本引导,若干有创业或业务突破意愿的

① http://wenku.baidu.com/view/71c23550f01dc281e53af018.html.

https://unido.org/fileadmin/user_media/Services/PSD/Clusters_and_Networks/publications/cegl

ie_dini.pdf.

Page 225: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

225

自然人或企业进行公开应标,专业化分工、生产数据产品,此阶段若干技术

传播机构、产业联盟或培训协会等行为主体可能介入;第三阶段,实施时,

该传统产业企业使用这些数据产品时会产生应用创新;第四阶段,一部分数

据产品跨领域或行业合作,形成外部经济,进行推动这些领域或行业发展。

这四大阶段,若风险投资能适时催化,还会产生交叉和重叠,作为一种螺旋

式正反馈效应,最终积累的是创新绩效。

10.4.2 扩张效应

较早研究集群促进地区经济增长的是美国布朗大学经济学教授约翰·亨

德森(John Henderson),他所列举的原因是[102]细化分工和规模效应。由此,

集群的扩张效应,指的是产业集群凭借自身的竞争优势,在短时期形成外部

经济,以拉动地区、区域乃至国家经济的快速增长。

这种扩张效应从两个方面进行理解,分别是[95]:单个企业的集群化成长

和集群的整体性扩张。前者的企业成长,一般应归因于其战略选择,即能合

理配置和利用自身拥有资源,大致有 3 种:一般性成长、购并成长和跨组织

成长,区别于前 3 种,集群化成长的特点是企业的资源能力将更多地通过外

部方式实现。后者的集群扩张,通常有两种:一是横向规模扩张,使投资者

易于发现市场机会、减少风险顾虑,不断吸引到新的投资,以增加集群内的

新企业数量;二是纵向规模增长,使企业不断向上下游拓展、扩大产业规模,

吸引大量的企业为其服务。

预期未来数据产业集群扩张效,大致有 3 个内容:一是创新绩效积累所

形成的集群规模效应,二是数据科技进步所促使的创新扩散效应,三是市场

应用范围效应所吸引的资本积聚。

10.5 负效应

无可置疑,产业集群是有负效应的。以产业价值链战略趋同这一负效应

为例,典型的有美国底特律汽车城的衰败、我国温州桥头镇纽扣产业竞争优

势丧失等,正如哈佛大学肯尼迪政府学院经济学教授爱德华·格莱泽(Edward

Glaeser)所说的[103],依赖单一产业,会严重削弱多元化错位竞争优势,使集

Page 226: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

226

群因外部威胁和内部僵化而失去竞争力,走向衰落。同时,从生态学观点来

看,集群产生后的动态演化过程中,负效应是始终与其生命周期有关的,不

同时期所呈现的负效应也不同。因而,了解这些可能的负效应并适时进行合

理规避,很重要。

数据产业集群负效应,考虑到其所对应的生命周期是集群初期,有以下

3 方面,分别是:创新风险、资产专用和拥挤效应。

10.5.1 创新风险

以撰写《创新的扩展》(Diffusion of Innovations)而闻名于世的埃弗里特·罗

杰斯(Everett Roggers)曾对技术创新市场发育的“潜在”、“萌芽”、“初期”和

“成熟”4 个阶段区分了 5 类创新者,分别是:创新者、早期采用者、早期

从众者、晚期从众者和落后者,并认为[104]:市场对创新的接受并不是一个连

续的过程,早期采用者与早期从众者,前者代表初期市场、后者则代表着主

流市场的,其间巨大分歧即所谓的“隔阂”说明的就是风险。因而,创新风

险有 3 个特征①:一是外部环境的不确定性,二是创新项目本身的难度与复

杂性,三是内部资源与创新能力的有限性。

对于数据产业,创新风险主要存在于对数据科技的理解上,表现在:一

方面,创新者很难在真正实施前向早期采用者清晰描述应用前景,比如大数

据被描述为“样本趋于总体、精确让位于模糊、相关重于因果”,这与很多早

期采用者的常识相背离,进而产生了“大数据结果无法验证”的错觉。另一

方面,很多早期采用者并未介入创新,却以创新者的姿态教育早期从众者,

从而加大了两者之间的分歧即风险性,比如由没有真正使用过数据挖掘、真

实分析过数据的人,教导如何用大数据来变革管理、创新思维。

集群初期,这种负效应会使数据产业集群很难形成规模而过早夭折。

10.5.2 资产专用

通常,集群初期,内部企业是以产业链纵向分工进行集聚的。这种上下

① http://baike.baidu.com/view/3958733.htm?fromTaglist.

Page 227: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

227

游各产业链环的衔接和依赖导致了很多企业不愿意将所拥有的资产进行共

享。然而,集群内企业所增加的资产专用性会造成对外部环境的应变能力减

弱。与此同时,若集群内某一产业链环出现问题,很可能会产生多米诺效应,

危及整个产业集群。

数据产业集群这种资产专用的危害性更大。这是因为:数据产业企业有

一种其他产业企业所没有的专用资产——数据资产,尽管当前其还不能被核

定价格,但由于所涉及的是企业占有的数据资源,从博弈角度,上下游产业

链环的企业竞合争抢这种资产,更容易将产业链撕裂,进而使集群消失。

10.5.3 拥挤化

一般来说,拥挤化是产业集群成熟期的负效应,由于知识和技术溢出促

使集群获得外部经济,同时滋生创新惰性,从而造成集群整体上的创新停滞,

进而导致集群内部产品雷同和恶性竞争。

然而,对于数据产业集群而言,这种拥挤效应会出现在集群初期。这是

因为:处于政府行政促进时期的数据产业企业,可能会一拥而上,基于政府

为鼓励这种新兴产业而开放部分数据资源,或者围绕一个或多个传统产业企

业无序竞争,实行集中式开发,由于数据资源、围绕企业或数据技术的相似

性,同一品种数据产品大量生产,导致集群企业间无序竞争、产生市场拥挤,

进而损害集群内所有企业利益,阻碍整个集群正常发展。

Page 228: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

228

第十一章 数据产业发展模式

从马歇尔经济学的产业组织理论角度,产业发展模式是指政府介入的侧

重点、程度和方略,包括产业结构、产业组织、产业布局、产业策略和产业

政策等,其实质是一种政府的顶层设计。若这种顶层设计的不恰当,可能会

干扰到新兴产业的自然成长机制和发育成长过程,轻则畸形、重则萎缩,这

里很有必要专门围绕数据产业进行一番探讨。

11.1 发展模式的一般分析

发展模式(developing model)是发展经济学(economics of development)和

产业经济学共同的研究热点,指的是在某一特定场景中,以社会、经济、国

家或产业等不同选择内容,结合现有的历史、人文和资源等背景,按照自身

独有的思维、情感和行为等特征,所设计或选择的未来发展方向,具体有:

目标、方式、步骤和发展重心等。

产业发展模式,就是一种将产业作为主要内容的发展模式,是在既定环

境下,对“产业发展目标、内部结构、产业组织、产业布局、技术进步以及

影响产业发展的外部因素和资源利用方式等”[105]的统筹安排。

需要说明的是,无论是何种发展模式,其本身是没有优劣之分的,应将

其放在一个参考区域或时空内进行考量,权衡利弊,比如说对于某一国家所

选择的经济发展模式,应结合其当前国情衡量是否符合,或者可否充分发挥

其自身独有优势,又或者能否有利于可持续发展,等等。

11.1.1 影响因素

影响发展模式的因素多种多样,但概括起来无非是两点:自身和环境。

自身,即关乎发展模式本身特征,如战略、禀赋或创新程度等;而环境,除

了应考虑经济全球化所导致的同质化趋势外,还要兼顾所处地域独特的社会、

体制、经济、文化和资源等要素。

1.外部环境

确切把握所处的外部环境,是设计或选择任何一种发展模式的前提条件,

Page 229: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

229

有两个内容:一是外部环境与发展模式选定内容之间(如社会、经济或产业)

的关系,二是外部环境中自然资源、结构制度、文化价值和社会态度等构成

情况,包括其多样性、集中性或非稳定状态等特征。

2.要素禀赋

要素禀赋,是各种发展模式的原始推动力,一般有两种分法:一是按流

动性,分为流动性要素和非流动性要素;二是按相似性,分为同质要素和非

同质要素。例如,在经济发展模式中,由于要素是经济运行的内在需求,既

要追求要素利益的极大化,又要控制要素的流向和流量。又如,在产业发展

模式中,既要综合考虑同质要素的因果、层次和功能的联结关系;又要对非

同质要素的耦合作用、投入比例等进行了解,以期将替代竞争变成互补合作。

3.创新扩散

创新扩散的快慢程度,一定程度上决定了发展模式选择与设计,这是由

技术发展水平、技术创新体系、技术核心控制力和技术推广难度等内容所决

定的。

4.政策导向

政府制定的各种政策措施对发展模式的制约作用相当明显,不但可以重

新配置资本或各种资源,还能通过不同方式来引导、保护其发展,破除障碍,

为其营造良好的外部环境。

11.1.2 基本模式

理论上的基本发展模式比较简单,大致有两种:一种是政府主导模式,

一种是市场主导模式。

政府主导模式一般是“相对落后国家追赶先进国家”①的通用方式。早

在 18 世纪,经济历史学派先驱、德国经济学家弗里德里希·李斯特(Friedrich

List)曾就“德国追赶英法工业化”问题提出国家主义理论,主张“实现政治

统一以建立统一的国内市场”;第二次世界大战后,战败的日本和部分东亚不

发达地区大抵采用了这一模式,继而日本经济崛起、“四小龙”腾飞;同样,

我国现行的经济发展模式,也是“政府主导型市场经济”。

① http://www.bjd.com.cn/10llzk/201303/18/t20130318_3560208.html.

Page 230: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

230

在现实中,是不存在完全纯粹的市场主导模式的,这是因为:发展模式

本身是由政府发起制定的,即便是依靠市场这只“无形的手”多些,也会或

多或少存在政府干预的痕迹。例如,美国在信息产业发展过程极其有效的“自

然成长模式”,尽管是以市场需求牵引和自由调节为主,但政府还是进行调控

的。

11.2 数据产业发展模式

通常,设计新兴产业发展模式有两种方法:一种是以自身产业特征入手、

结合所有影响因素进行,这是一种需要很强预见性的方法,比较难;另一种

则相对简单,即参考相仿产业的已有经验加以改进。

鉴于数据产业是信息产业逆反、衍生与升级,这里依据信息产业发展模

式已有经验[105]进行,选择的国家有美国、日本、韩国和印度等,其中:美国

是一种以市场调节为主、政府调控为辅的“自然成长模式”,日本和韩国是一

种政府中观干预的“东亚模式”,印度则是一种政府确立的出口导向型“软件

服务外包模式”。

11.2.1 产业结构:全面推进

按照产业发展突破口划分,产业结构有两种:全面推进和重点突破。

对照信息产业,美国所采取的是全方位特征明显的全面推进,做到了硬

件制造和软件服务“齐头并进”,到目前其软硬件发展均居世界首位;日韩分

别是硬件制造的重点突破,日本的发展重心是计算机的大型化、高速化和半

导体芯片微型化、大容量化,韩国则侧重于半导体存储、专用集成电路、液

晶显示器和移动通讯设备等;印度是软件服务重点突破。

从产业结构角度,应当着重理解已有的产业基础,这是因为:一则已有

的产业基础能为新兴产业未来发展创造诸多条件,二则现有产业的内在关联

和结构是帮助新兴产业确定发展重点、发展序列的主要参考。

由于数据产业能利用的数据资源涉及全行业和所有领域,应采取全面推

进。即:在宏观层面上,把握传统产业升级转型的路径选择,突出政府导向

性,制定数据产业发展的国家战略;在中观层面上,结合数据产业的自身特

Page 231: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

231

点与发展状况,以及对消费结构升级、传统产业调整、文化软实力提升等方

面的影响作用,鼓励风险资本介入,由其推动数据产业企业集聚;在微观层

面上,鼓励研发机构自主创新,任由企业自由发展,充分发挥市场的优胜劣

汰竞争机制。

11.2.2 产业组织:中小企业主导

按照市场结构划分,产业组织可分为大企业主导和中小企业主导。

从信息产业发展来看,美国实行的是自由竞争与垄断相结合的策略,也

就是说,一方面采取风险投资、开发二级市场等措施,积极扶持中小企业,

鼓励其参与竞争;另一方面则十分注重培育具有国际竞争力的大公司,支持

其频繁的企业兼并重组。日本和韩国奉行的是“垂直型”大企业主导,大企

业与其有联系的中小企业形成轮轴式集聚,中小企业为在顶端的大企业提供

产品或初级技术外溢,这种情况下中小企业生存空间不大。印度的软件企业

同样规模较大,有 TCS, Infosy 和 Wipro 等大型公司,仅 Wipro 自 2003 年起

的两年间就以接近两亿美元的价格收购了六、七家美澳等他国企业。

从产业组织角度设计数据产业发展模式,应充分考虑企业参与市场分工

方式、企业与外部要素的联结形式,这将直接影响产业政策的导向和管制,

间接决定这一新兴产业的产业定位。

由于信息产业是含有硬件制造的,而一般工业企业的目标是“做大做强”,

与之相比,这种由大企业主导的产业组织方式不切合数据产业企业实际,因

此应采取中小企业主导,以期:一方面获得地区、区域乃至国家的自主创新

优势;另一方面利用中小企业对市场反应灵敏、资金周转快、生产效率高等

优点,保证竞争优势。

11.2.3 产业布局:内生动力增长

产业布局是与产业转移密切相关的,从这一视角,有两种模式:内生动

力增长和外力驱动。一般来说,内生动力是依赖本产业企业聚集或其他产业

带动形成的,外生驱动则是由承接产业转移或直接投资形成的。

总结信息产业发展模式,美国重视信息产业基地建设,著名的有硅谷和

Page 232: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

232

波士顿 128 号公路,是一种以产业集群发挥集聚效应形成内生动力的产业布

局方式;日本、韩国和印度则受本土资源和市场的限制,都采取国际化战略,

从承接产业转移来实现新知识与技术的吸纳并加速产业化工作。

从产业布局角度设计数据产业发展模式,应规划的有两点。首先,数据

资源配置利用水平,作为数据产业的发展动力与基本途径,一定程度上需要

领域或行业的传统产业龙头企业引领。其次,不能再使用承接产业转移的外

生驱动模式,这是因为:一些跨国公司虽然在发展中国家直接投资,但其关

键技术或生产工艺均被一直视为核心秘密,是绝不允许被扩散到集团外部的,

这些公司做的仅是技术放在内部市场进行有限转让,其目的只是使用他国资

源扩大自己市场份额而已。

以数据产业所依赖的数据科技专业水平看,当前国内外发展程度相仿,

甚至数据挖掘领域最顶尖的科学家大多是华裔,吸引这些海外人才回国效力,

能有力地加速数据科技产业化进程,而不用类似信息产业那样惯用信息科技

“引进+复制”的方式。因而,在产业布局上应以内生动力增长模式为主。

11.2.4 产业策略:自主创新

从技术创新的类型上,产业策略有自主创新和引进消化吸收两种,其中:

自主创新是各种产业发展的迫切需求和内在动力,更决定了企业的核心竞争

力。

美国在信息产业发展初期,就非常重视技术的自主创新,着眼于基础研

究和重点突破,一贯创建大型实验室,在耗资大、费时长和风险高的项目上,

使用第一流的技术设备、吸引众多第一流的科研人员,同时采取“基础研究

-应用研究-技术开发-市场开发”的发展步骤,以形成能让企业“自然成

长”的适宜创新环境。而日本、韩国和印度却没有从基础研究做起,采用“短、

平、快”,走的是“引进、消化、吸收到自主创新”之路。

从产业策略角度设计数据产业发展模式,所应建立的是数据科技的创新

体系和支撑体系,这表现在:创新体系建设上,改进现有的产学研结合方式;

支撑体系上,鼓励风险投资早期介入,从政府角度拉近企业、大学与科研院

所和专业数据产业投资基金之间的距离,形成合作联盟。

Page 233: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

233

在我国,企业发展依靠科技进步因素小,究其原因就是自主创新不够,

表现在以下 3 个方面。首先,企业的知识产权意识淡薄,技术原创者的利益

得不到保障,人才引力不够。其次,企业很难找到同大学与科研院所的合作

结合点,一方面,大学与科研机构缺少有效渠道了解企业真实需求,合作时,

企业仿佛是在“施舍”项目,执行中,大学与科研院多以发表学术成果或申

请专利为目标,部分仅是实验室成果,仅通过鉴定或小试,离工业化道路尚

远;另一方面,一些有资金、有实力的企业虽然对新技术、新产品空前渴望,

却又很难得到大学与科研院所的“指导”,经常对热门技术重复投资,一拥而

上,导致恶性竞争。

由此,数据产业的自主创新,同时也是产学研结合方式的创新,应由政

府介入,鼓励专业数据产业投资基金作为驱动力,将科研、教育、生产不同

社会分工在功能与资源优势上的协同与集成化,在整个数据产业链上形成创

新的对接与耦合。

11.2.5 产业政策:政府调控辅助

从政府的调控形式,产业政策有政府主导和市场主导两种。

以信息产业为例,美国采用的是一种“国家宏观需求管理和自由放任相

结合”的方式,前期以政府采购和投入等方式直接介入,中期逐步转向政策

制定等间接调控,后期主要是反垄断调查;日韩的“东亚模式”,都具有强烈

的政府干预色彩,是从战略计划、立法、机构协调到经济政策的全面而深入

的“政府中观产业干预”。

从产业政策角度设计数据产业发展模式,所确认的是政府的介入侧重性

选择,并且应保持这种选择的一贯性。这是因为:产业发展模式不断演进固

然是好的,但仍不及有延续性和稳定性的政策优势强。

数据产业的实质是信息产业的升级,政府介入扶持这一新兴产业应延续

信息产业“逐渐放权、由市场接管”的趋势,遵循“以市场机制作为分配社

会资源的基础性手段”原则,采取“市场调节为主、政府调控辅助”。另外,

由于家电、化工、汽车、造船和钢铁等传统行业仍是中国经济未来增长点,

鼓励数据产业发展的政府辅助调控,更多地应表现在:将数据产业的培育和

Page 234: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

234

传统产业的升级转型结合起来,促进两者共同发展。

11.3 数据产业发展模式创新

单纯依靠参考信息产业发展模式,仅凭改进来设计数据产业发展模式,

是不太现实的。一方面,产业有差异,所涉及应解决的问题各有不同,差之

毫厘则会谬之千里;另一方,当前我国信息产业发展态势并不算好,存在一

贯承接国际产业转移、企业“大而不强”和集群“空洞化”等状况。

因而,数据产业发展模式的创新性设计是一个新的挑战,只有创新才能

直接促进企业自由竞合以集聚形成集群,间接促使传统产业转型升级、向更

高层次实现跨越式发展,从而在新一轮国际竞争中获得战略优势。

11.3.1 传承、转移

从产业环境(industry environment)角度,数据产业发展正面临如何规划全

球化背景下有差异的区域经济(regional economy)这一课题,这由两部分组成:

一是如何传承本地文化精髓、实施城镇化错位发展,二是怎样推进产业梯度

转移,实现区域经济格局最优化。

第一部分的文化是有多样性的,不同地区会有自己所独特的文化,这种

地区文化是由一定时期、特定区域生产或生活方式相互作用(如矛盾或和谐)

形成的。经济全球化背景下,在不排除外来文化吸收的基础上,保持本地文

化精髓的传承,对实施城镇化错位发展、避免区域产业趋同很有帮助。然而,

这部分工作需要事先了解地方资源禀赋、理解当地民众真实需求,但使用传

统方法可操作性不强,一般地方政府不太愿意从日常行政中分出大量的人力、

物力,持续进行这种普查性的数据分析。

第二部分的产业转移理论,这源于“实验经济学之父”弗农·史密斯

(Vernon Smith)的产品生命周期,其所主张的是①:发达地区应率先发展,然

后通过向较发达地区和欠发达地区转移,以带动整个经济的发展。产业梯度

转移有两个弊端:一是这种产业转大多是发达国家或地区不愿意继续发展的

① http://wiki.mbalib.com/wiki/梯度转移理论.

Page 235: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

235

高污染、高能耗、技术含量低或产品附件值低的产业;另一个则是通常会涉

及“总部经济”争抢,转移地区往往会利用各种地方优惠吸引大企业在名义

上继续留驻,而承接转移地区付出了环境、资源和人力,却得不到相应的财

政回报,一旦遭遇产业结构调整、总人口下降等冲击,将面临严重的“枯城”

问题,这对区域经济负面影响很大。

所以,数据产业发展模式设计中,应对这一课题进行适当安排,开放获

取所涉及的政务数据资源,鼓励一部分数据产业企业以此开展数据创新、外

包分担部分政府公共服务,以节省国家开支。

11.3.2 自由竞争

一般来说,税收、补贴或政府采购等财政激励措施对产业的刺激作用较

为有限,这是因为:尽管这种财政激励的风险较小,但并不能保证公平供给。

因而,依靠市场盈利性激励的自由竞争应是前提条件,数据产业发展模式创

新,所应考虑的是哪种企业及如何做到自由竞争。

1973 年,曾与凯恩斯和加尔布雷思共事的知名经济学者厄恩斯特·舒马

赫(Ernst Schumacher)在代表作《小即是美》(Small Is Beautiful: Economics as if

People Mattered)中,阐述了其有名的经济思想,概括成一句话就是“我们需

要一种全新的思维,一个注重人而不是重视物品的体系——大众生产,而非

大量生产”[106],这种“大众生产”应满足 3 个条件:小规模使用、价格低廉

和适应人的创造需要。相对来说,数据产业企业生产针对的可能是极其小部

分消费者特殊需求,属于“小众生产”,通常这种小规模的产品生产,大企业

不太愿意介入。因而,中小企业的大量存在是符合数据产业发展规律的。作

为数据创新中最为活跃的驱动要素,这些企业具有大企业所不具备的科技嗅

觉灵敏、市场联系紧密、开发成本低、产品上马快和易于筹得风险资金等特

点。

引入自由竞争机制,并非“放任不管”,是将“下达指令性计划或行政命

令”对企业的经济活动直接管理,变为“运用经济、法律手段”利用税收等

经济杠杆间接引导人力资源、科技创新和风险资本发挥三重驱使作用,采用

诸如明确数据资产产权、开放获取数据资源和允许数据科技入股等措施,保

Page 236: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

236

护和调动中小企业创业者的积极性,这样才能有利于这些企业通过竞合关系

开展创新协同、形成专业分工体系,防止集群“空洞化”,以规避“引大资、

招大商”所形成的产业集群“只‘集’不‘聚’”的后果。另外,这些能促使

企业竞争的方法,同样是基于了解国内经济状况的,实施前可进行数据论证。

11.3.3 建设新型基地

“建立科技园区”是美国信息产业发展的一条重要经验,其作用是在体

制上加强企业同大学、科研院所的合作。在我国,国家大学科技园、高新技

术产业园区,往往是不同大学或科研院所各自为政的,有时园区所在地域偏

远,更使得管理“鞭长莫及”并存在很多问题。

为加速数据产业企业集聚形成产业集群、凸显极化效应,设计数据产业

发展模式同样应考虑建立数据产业基地,但不能照搬传统的“政府引导、市

场选择和企业主导”方式,而应是“新型”的、具有以下 5 方面特征。

1.产业显性凝聚力

可能在同一基地中不存在整条数据产业链,但能围绕某一领域或行业数

据资源实现资源、科技共享,数据产品生产专业分工明确,基地内企业做到

竞合协同,具有整体创新绩效。

2.资本、科技双重驱使

这种基地将改变原先政府筹建、单纯依靠科技驱使的方式,由专业数据

产业基金引导政府相关部门、多个大学或科研院所参与建设,由于风险资本

是受收益率管控的,在基地的地域选择上会有较强的商业价值偏向性。

3.“智慧”精准管理

区别于传统的科技园区“散漫”管理,这种基地在管理上将依靠数据创

新实现精准化,充分体现“智慧”,比如在制度、环境、设备设施及场所、安

全保障等方面均以入驻企业个性化需求入手进行管理安排。

4.多元化生态型 CBD

多元化、生态型是这种基地的通用特征,实质是一种内嵌数据创新核心

应用的城市 CBD,具有充足的商业配套、齐备的文化设施和宜居的生态社区,

能进行便利的商业活动、生产工作和生活娱乐。

Page 237: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

237

5.人才高地

这种基地能将高精尖、复合型等各种综合性、多层次、高中初级人才结

合在一起,针对各自个性化需求,报以丰厚薪酬、匹配职位、学术进阶或舒

适生活等多元化职业前景,调动其积极性、创造性,进而成为人才高地。

11.3.4 外化创新

“外化”,源于黑格尔哲学的常用术语①,指的是将内在的东西转化为外

在的。在创新数据产业发展模式时,同样需要考虑创新的“外化”,使创新优

势即时转变成产业优势。

首先应外化的是创新资源配置。创新是一种多主体互动合成体,并不单

单是大学与科研院所的事情,作为政府而言,不应局限在一处,将大量创新

资源过度配置给大学与科研院所,应外化到企业和创新者个人,特别是年轻

的企业创业者和科技创新者。正如美国经济学家、原耶鲁大学校长理查德·莱

文(Richard Levin)曾在清华大学所做的“全新的挑战”演讲②中所说的那样,

激励年轻人让其肩负起发展国家创新能力的挑战,而不是与年长的院士们去

“竞争”创新资源。

其次应外化的是企业内部创新能力,这是指将原来属于单一企业内部创

新进行专业细化后交由围绕该企业的其他企业完成,这种外化有利于形成大

企业与中小企业“双赢”的共生态集聚,进而形成有凝聚力的产业集群。

11.3.5 军工民用并进

根据前人总结[105],中国信息产业发展模式的演变历程有 3 个阶段,分别

是:十一届三中全会以前的“政府主导,军工为主”,20 世纪 80 年代的“计

划与市场并行,军用与民用结合”,自 90 年代初至今的“以市场换技术,加

工制造为主”,很明显,军工正在逐步退出。

反观数据产业,我们说:未来国与国之间的竞争就是数据产业的竞争。

① http://baike.baidu.com/view/1782817.htm.

http://chuangxin.chinadaily.com.cn/a/duihuachuangxin/zhuanjiaguandian/2013/0719/2215.html.

Page 238: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

238

在促进民用、提速经济发展之外,政府应在军工领域有所突破,囤积数据资

源、将数据创新武装到国家机器,以占据新一轮国际竞争的战略制高点。

Page 239: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

239

第十二章 数据产业法律法规建设

数据产业,首先是一种产业,所涉及的是数据使用的经济和市场问题,

其本质是企业自发的一系列牟利性活动。既然企业是数据多级应用的获利者,

必须有相应法律法规,能使其在数据创新时依照进行风险评估与防范治理,

同时为自己的行为负责。

当前,国际国内涉及数据的法律法规有一些,但没有形成体系。在本章,

将使用法律模仿,下位衔接资源法、经济法、刑法和民商法,从发展数据产

业的角度出发,在资源产权保护、竞争制度安排、产业组织规范和财政支持

策略等方面开展讨论,以便于法学界进行相应的法律创新。

12.1 资源法:数据资源

在由信息化变革持续累积所营造的“数据自然界”[5]中,数据资源同时

具备现实世界自然资源和能源的双重特性,其表现在:既像自然资源(如森林、

草原、海洋、土地、水、水产和野生动植物等)那样形态多样、有限性、可恢

复、不可替代和不稳定等,又像能源(如石油、煤炭、矿产、电力和其他可再

生能源)那样可利用、可发展、分布不均和受技术开发水平制约等。

调整在开发、利用、保护和管理数据资源过程中所发生社会关系的法律

规范,大致应涉及两个方面:一是数据资源的合理共享,二是防止数据资源

的被滥用。这些方面涉及的法律规制都是多层面、多领域和多类型的,既有

国家法律,也有各种管理法规及部门规章,为符合信息社会要求,当前世界

各国和地区均已建立较完善的法律保障体系。

在信息共享方面①②,在美国,法律对国有和私有信息、数据共享有着截

然不同的态度,即对国有采取完全开放、对私有给予严格保密,相关的联邦

法律包括《信息自由法》、《隐私法》、《阳光法》、《版权法》等,其中:1966

年生效的《信息自由法》,是美国信息共享的指导性法律,其立法根本是满足

每个公民对信息获取的需求;1974 年的《隐私法》规范了行政机关处理个人

① http://wenku.baidu.com/view/9115b2ef102de2bd96058821.html.

② http://wenku.baidu.com/view/8f5b8f203169a4517723a315.html.

Page 240: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

240

记录的行为,规定了个人记录必须对本人公开和对第三者限制公开的原则;

1976 年的《阳光法》目的是保障和促进公民更加有效通过多种途径获取和利

用政府信息,《版权法》则在第 105 条明确不允许联邦政府拥有版权,并对数

据的二次开发没有限制①。在欧盟,制定有与信息共享相关领域最为全面而

系统的法律法规体系,特别在科学数据共享方面立法速度极快,除了具有指

导意义的《欧盟条约》和《欧洲共同体条约》外,主要的有 1996 年的《欧洲

议会和理事会关于数据库法律保护的指令》、2001 年的《关于公开获取欧洲

议会、委员会和理事会文件的规则》和 2002 年的《布加勒斯特宣言》,数据

保护同样区分公有和私有数据问题,数据共享则考虑了过程中的汇集、开放、

管理、使用和安全等问题,代表国际上典型当代信息共享思想的《布加勒斯

特宣言》把信息社会与数据资源共享紧密联系起来,认为这个所谓的“信息

社会”应是“以广泛传播和分享信息、各利益相关方(包括政府、私营部门和

民间团体)的真诚参与为基础”的。

在防止计算机滥用方面②③,在美国,是由 1996 年国会通过的《计算机

反欺诈和滥用法》修订案、1997 年的《禁止电子偷窃法》、1999 年的《反域

名抢注法》、2000 年修订的《加强计算机安全法》和 2006 年的由美国参议院

批准的《计算机犯罪公约》等一系列国际公约、联邦法律、州法律、联邦行

政决定及判例等所构成的法律体系。在欧洲,瑞典 1973 年的《数据法》是世

界上第一部涉及数据滥用的法律;英国 1990 年的《计算机滥用法》将未经授

权接触数据、非法占用数据或故意损坏、破坏、修改数据认定为违法;1997

年,欧洲理事会建立了网络犯罪专家委员会,开始起草《关于网络犯罪的公

约》;2007 年,德国通过“为打击计算机犯罪的《刑法》第 41 修正案”,其

内容包括与数据处理有关的交易诈骗、伪造证据、伪造证书、伪造证明材料、

毁弃文书、篡改资料等在内的计算机滥用处罚。在亚洲,新加坡 1993 年制定

了《滥用计算机法》并于 1998 年 6 月通过了该法修正案;韩国 2001 年通过

了《重要信息基础设施保护法》以建立应对黑客、计算机病毒等破坏的保护

措施;日本 1999 年通过《禁止非法接入行为法》,并修改刑法内容将其延伸

① http://www.cartome.org/nrc-db-intro.htm.

② http://www.techcn.com.cn/index.php?edition-view-157164-0.html.

③ http://www.npc.gov.cn/npc/zgrdzz/2012-11/16/content_1743168.htm.

Page 241: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

241

到数据滥用领域。在澳洲,澳大利亚是全球较早制定计算机滥用相关法律法

规的国家之一,主要有:《反垃圾邮件法》、《互动赌博法》、《互联网内容法规》、

《电子营销行业规定》和《广播服务法》及其修正法等。当前,在这方面的

立法处罚偏重,特别是近期由“麻省理工学院图书馆数据恶意下载”所导致

的 Reddit 联合创始人、著名骇客艾伦·斯沃茨(Aaron Swartz)自杀事件①引发

了很大争议,争议的焦点在于:数据滥用获利,是不是刑事指控的必要条件。

信息共享和防止计算机滥用的这些立法理念和法律保障体系,能给数据

资源共享和防滥用带来很多启示,但是不能照搬照抄。这里给出数据资源法

律法规体系构建 4 方面要点:首先,模仿资源法,将数据资源所属权、数据

资源勘探权和数据资源开发权进行三权分离;其次,打破壁垒、将一些关键

领域或行业的数据资源收归国有,在共享前应封存部分拷贝以防止数据资源

被源头破坏;再次,采用技术招标的方法,将数据资源的勘探权和首轮开发

权交由大学与科研院所等较为中立的科技研发机构进行,以约束数据资源滥

用行为;最后,在数据资源开发的多级应用过程,应避免惩罚过度。

12.2 经济法:数据垄断

为规范市场秩序、保障公平竞争和促进经济发展,实行市场经济制度的

世界各国和地区,均将反垄断法视作经济基本法[107],比如美国将反垄断法称

为“自由企业的大宪章”,德国称其为“经济宪法”,日本则是“经济法的核

心”,等等。

垄断(monopoly)②,指的是少数经济主体,在市场交易中,凭借自身的经

济优势或超经济势力,对商品生产、商品价格、商品数量及市场供求状态实

行排他性控制,直至实行排他性独占,以牟取长期稳定超额利润的经济行为。

这种经济行为的形式有多种,如资本垄断、技术垄断、劳动力垄断和信息垄

断等生产要素的垄断,在数据产业中则直接表现为数据垄断,具体表现为:

锁定或操纵价格、划分市场、价格歧视、独家经营、联手抵制、非法兼并和

http://www.reuters.com/article/2013/07/30/us-mit-swartz-report-idUSBRE96T1EG20130730.

② http://rdi.cass.cn/manager/images/pic/2005107191523.PDF.

Page 242: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

242

投标操纵等。

数据反垄断法,大致应涉及两方面内容:一是避免彻底排他性数据屏蔽

(data masking),一是规避数据独裁[1]。

彻底排他性数据屏蔽,是一种经济垄断,比较典型的有:Facebook 屏蔽

Google 搜索引擎、淘宝屏蔽百度蜘蛛等,此类屏蔽事件美其名曰是为了“用

户利益”考虑,实则是大企业在抢夺数据独占权。因而,为确保数据产业有

一个早期活跃度较高的市场环境,应使用立法来调整这种数据独占权的平衡

度,比如建立数据资产、数据产品的评估与交易新机制。

数据独裁,迈尔-舍恩伯格教授在其著作《大数据时代》中已解释得很清

楚了,是一种过度依赖数据直接妨碍市场自由竞争的行政垄断。这种行政垄

断是中国经济体制转型时期所特有的一种垄断现象[107],受到这种垄断利益所

诱惑的,大多不是企业,而是手握各种审批权的行政管理机关及其人格化的

各级各类政府官员,这对尚处于雏形的数据产业市场秩序将会带来很大的威

胁,应尽力设法规避。

应当看到,这两种垄断是具有滥用优势、妨碍竞争和谋求利益等一致性

特征的,需要在经济法领域进行统一立法规范,当然规制垄断并不等于反对

规模经济,偏重调整的应是垄断行为。

12.3 刑法:数据造假

当前互联网是获得数据的主渠道,在 2013 年 7 月的《钛媒体》上,有一

篇总结互联网“江湖”八大阴暗面的文章①,很不幸,每一种均与数据造假

有关。归根结底,这种数据造假都是为了混淆是非、引人误判。

真实性(authenticity)一词源于希腊语,本意是“最初的”、“自己做的”,

在 20 世纪 70 年代,被引入哲学和心理学领域来描述真实自我的存在方式。

在日常生活中,感官终极确认“眼见为实”是最基本的生存判断[5],多年来

的信息化变革,使人们“一直在通过事件和映像追求刺激”[108],现代性过于

强调理性思维,以及基于物质消费的享乐主义和人际交往的功利化,往往会

使存在真实性发生混乱,最终导致“身份混乱和自我碎片化”[108]。在网络空

① http://www.tmtpost.com/51746.html.

Page 243: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

243

间内,这种失真感将更为强烈,甚至 Twitter 用户尼尔·戈特利布(Neil Gottlieb)

还无意发现“自己”发了一条广告推文“@barristabar 里的歌叫啥名字,我爱

死它了!①”。

从法律角度,构建新的数据造假追究机制有一个前提,即:判断哪些数

据真实或者准确可靠、又或是将会被人引为误判,并提供相应证据。以当前

技术条件来看,要完全实现这一目标还不是很现实,比如美国在 2000 年通过

的《数据质量法》②,仅有两段话、短短百字,尽管后来联邦政府各个部门

均制定了实施细则,但最为关键的“谁”,对数据的质量拥有最终的“解释和

裁定权”始终没有说清楚。因而,既然在数据真实性判断上不能采用“客观

真实说”,那就应暂时使用“法律真实说”,就是从认识上的相对真实来进行

价值判断,采用“在司法实践活动中对案件事实的认识符合当前刑法条文所

规定或认可的真实”③,这样还能套用现有法律法规已有条文。

12.4 民法:数据隐私

个人数据的隐私保护,无疑是数据产业所要面临的最大问题。根据 1995

年欧盟的《数据保护指令》,个人数据是“有关一个被识别或可识别的自然人

(数据主体)的任何信息;可以识别的自然人是指一个可以被证明,即可以直

接或间接地,特别是通过对其身体的、生理的、经济的、文化的或生活身份

的一项或多项的识别”,内容涵盖自然状况、社会背景、生活经历、习惯喜好

和家庭基本情况等,这些数据主要有两个显著法律特征:一是有关“个人”

的,二是能对主体构成直接或间接识别。

在民法领域,尽管当前世界各国的立法渐已趋同,但现行关于个人数据

隐私权保护法律法规仍各具特色,可分为 3 种类型[109]:第一种是综合立法型,

① 原文是:What is the song in the new @barristabar commercial? I love it!!

② 全文是:The Director of the Office of Management and Budget shall, by not later than

September 30, 2001, and with public and Federal angency involvement, issue guidelines under

sections 3504(d)(1) and 3516 of title 44, United States Code, that provide policy and procedural

guidance to Federal agencies for ensuring and maximizing the quality, objectivity, utility, and

integrity of information (including statistical information) disseminated by Federal agencies in

fulfillment of the purposes and provisions of chapter 35 of titile 44, United States Code,

commonly referred to as the Paperwork Reduction Act.

③ http://wenku.baidu.com/view/839c0001bed5b9f3f90f1c8d.

Page 244: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

244

以经济合作与发展组织、欧盟及其大部分国家为代表,即由同一部法律来规

范政府和商业组织收集、利用个人数据的行为;第二种是分别立法型,以美

国为代表,即对政府和商业组织收集、利用个人数据使用不同的法律来予以

规范;三是折衷主义立法型,以日本为代表,即存在一部统一立法,针对个

别领域、特定行业的制定不同法律规制。

在经合组织 1980 年颁布的《隐私保护和个人资料跨界流通的指南》

(Guidelines on the Protection of Privacy and Trans-border Flows of Personal

Data)中有个人数据保护八大原则,即:收集有限原则(collection limitation

principle)、数据内容正确原则(data quality principle)、目的特定原则(purpose

specification principle)、利用限制原则(use lmitation principle)、安全保障原则

(security safeguards principle)、公开原则(openness principle)、当事人参与原则

(individual participation principle)和责任原则(accountability principle)。近年来,

全球隐私规范逐渐将这些原则缩减为对数据主体赋予“是否、如何以及经由

何人来使用”[1]权利,具体来说有 4 种[110]:第一种是知悉权,数据主体有权

知道数据使用者是谁,以及这些数据的内容和用途;第二种是选择权,数据

主体有权选择权是否提供个人数据,但在目前情况下若不提供或不完全提供,

一般会被拒绝交互;第三种是支配权,数据主体有权要求数据使用者合理使

用(如访问、公开、修改或删除)这些数据;第四种是安全请求权,数据主体

有权要求数据使用者保证数据完整及保密。当前在现实操作中,这 4 项权利

已被公式化为“告知与许可”;而近期的“棱镜门”斯诺登事件,更将这些权

利简化为全世界人民“被告知”,这些法律规制即时变为“一纸空文”。

是时候变革现有的数据隐私保护法律法规体系了,不应再让数据隐私成

阻碍为数据产业发展的“绊脚石”,如迈尔-舍恩伯格教授所说的,应由个人

许可转为“让数据使用者承担责任”[1]。这种新的数据隐私规范应有 4 方面

改变:首先,从删除个人数据变为仅删除隐私部分,即仅删除个人敏感数据

(sensitive data),指的是能辨识个人身份和能表示特定的宗教认同、政治偏好、

犯罪记录和性别倾向等数据;其次,从永久拥有个人数据变为有限占有,即

有数据开发的时间限制,这种时限设置还有利于提高数据市场的交易活性;

再次,在技术处理上要采用匿名化或模糊化,即使用相似查找而非精确查询;

Page 245: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

245

最后,挖掘结果不能被还原到数据主体,比如不能单纯依靠挖掘出来的个人

行为倾向去裁定其未来是否有罪[1]。

12.5 商法:数据资产

民法与商法①,皆属私法,均是用来纵向调整社会经济关系,民法一般

调整平等主体之间财产关系和人身关系,商法则用来特别调整平等主体之间

的商事关系或商事行为。民法,鉴于所有权绝对、契约自由和过错责任三原

则,较为重视财产的具体形态,通常将有形财产纳入物权法调整、无形财产

纳入知识产权法调整,债权和债务纳入债法或合同法调整;商法②,较为注

重财产的整体性,经常将能够实现营利目的的各项财产以及事实关系进行合

并,即不论这些财产是有形或无形、支配性或相对性,也不区分动产、不动

产、债权、专有技术、信誉、顾客关系等等,只要能用来营业,均被纳入营

业资产范畴加以规范。

从资产界定的角度:一方面,数据资产是一种无形财产,甚至是电子化

有价证券、虚拟货币等特殊形式;另一方面,对数据产业企业来说,数据资

产是一种稀缺性的生产资料,缺了就无法正常生产。因而,重视资产具体形

态的民法对其调整难度较大,而注重财产整体性的商法则相对容易得多,还

便于进行产权转让。

使用商法规范产权转让,是一种较为成熟的产权激励方法,其实质是促

进对新兴产业的投资与交易。因而,构建合理的数据资产产权交易法律规制,

能直接影响、推动和保护创新活动与成果,间接改变投资者行为曲线,从而

加大数据产业的吸引力,进而使产业本身变得有利可图。同时,这也有利于

政府调整财政激励的适用范围与投放条件,适时进行必要的财政激励与产权

激励转换。

① http://www.lawbook.com.cn/lw/lw_view.asp?no=3507.

http://gszf.chinajournal.net.cn/EditorA/WebPublication/paperDigest.aspx?paperID=GSZF2007

01001&isCnki=ck01.

Page 246: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

246

References 参考文献

1 Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will

Transform How We Live, Work, and Think. Eamon Dolan/Houghton Mifflin

Harcourt. March 5, 2013.

2 Nicholas Negroponte. Being Digital. Vintage. January 3, 1996.

3 Raymond B. Cattell. Intelligence: Its Structure, Growth and Action. Elsevier

Science Ltd. July 1987.

4 John von Neumann. The Computer and the Brain. Yale University Press. July

11, 2000.

5 朱扬勇, 熊赟. 数据学. 复旦大学出版社. 2009 年 12 月.

6 Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.

Addison-Wesley. May 12, 2005.

7 Martin Hilbert, Priscila López. The World’s Technological Capacity to Store,

Communicate, and Compute Information. Science, 2011, 332(6025): 60-65.

8 Annie Brooking. Intellectual Capital: Core asset for the third millennium.

Thomson Learning. July 30, 1996.

9 Thomas A. Stewart. Intellectual Capital: The New Wealth of Organizations.

Doubleday Business. February 17, 1997.

10 Patrick H. Sullivan. Profiting from Intellectual Capital: Extracting Value from

Innovation. Wiley. March 31, 1998.

11 Max H. Boisot. Knowledge Assets: Securing Competitive Advantage in the

Information Economy. Oxford University Press. December 23, 1999.

12 George J. Stigler. Memoirs of an Unregulated Economist. University Of

Chicago Press. March 15, 2003.

13 Tony Fisher. The Data Asset: How Smart Companies Govern Their Data for

Business Success. Wiley. June 22, 2009.

14 Michael E. Porter. The Competitive Advantage of Nations. Free Press. June 1,

1998.

15 Marc U. Porat. The Information Economy. University of Michigan Library.

January 1, 1977.

16 Paul M. Romer. Increasing returns and long run growth. Journal of Political

Economy, 1986, 94(5): 1002-1037.

17 Stephen G. Eick. Graphically displaying text. Journal of Computational and

Graphical Statistics. 1994, 3(2): 127-142.

Page 247: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

247

18 Colin Ware. Information Visualization: Perception for Design. Morgan

Kaufmann. February 4, 2000.

19 Frits H. Post, Gregory M. Nielson, Georges-Pierre Bonneau. Data

Visualization: The State of the Art. Springer, December 31, 2002.

20 Toby Segaran, Jeff Hammerbacher. Beautiful Data: The Stories Behind

Elegant Data Solutions. O’Reilly Media. July 28, 2009

21 Thomas H. Davenport, D.J. Patil. Data Scientist: The Sexiest Job of the 21st

Century. Harvard Business Review. 2012, 90(10): 70-6, 128.

22 Peter J. Alexander. Product Variety and Market Structure: A new measure and

a simple test. Journal of Economic Behavior & Organization. 1997, 32(2):

207-214.

23 Karl Marx. Das Kapital – Capital: Critique of Political Economy. CreateSpace

Independent Publishing Platform. July 13, 2012.

24 Dale W. Jorgenson. Information Technology and the U.S. Economy. American

Economic Review. 2001, 91(1):1-32.

25 Phillip E. Johnson. A History of Set Theory. Prindle, Weber & Schmidt.

January 1, 1972.

26 Tony Hey, Stewart Tansley, Kristin Tolle. The Fourth Paradigm:

Data-Intensive Scientific Discovery. Microsoft Research. October 16, 2009.

27 Duncan J. Watts. A Twenty-first Century Science. Nature. 2007: 445-489.

28 Declan Butler. Web Data Predict Flu. Nature. 2008, 456(7220): 287-288.

29 (美)劳伦斯•纽曼著, 郝大海译. 社会研究方法:定性和定量的取向(第 5

版). 人民大学出版社. 2007 年 1 月.

30 Mario Livio. Is God a Mathematician? Simon & Schuster. Jan 19, 2010.

31 Michele Banko, Eric Brill. Mitigating the Paucity-of-Data Problem: Exploring

the Effect of Training Corpus Size on Classifier Performance for Natural

Language Processing. In: Proc. of HLTR 2001. pp. 1-5. Association for

Computational Linguistics Stroudsburg, PA, USA.

32 Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey. In:

ACM SIGKDD Explorations Newsletter. 2000, 2(1): 1-15.

33 Albert-Laszlo Barabasi. Bursts: The Hidden Pattern Behind Everything We

Do, from Your E-mail to Bloody Crusades. Plume. May 31, 2011.

34 Bing Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data

(Data-Centric Systems and Applications). Springer. November 23, 2010.

35 David Lazer, Alex Pentland, Lada Adamic, et al. Computational Social

Page 248: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

248

Science. Science. 2009, 323(5915): 721-723.

36 John A. Barnes. Class and Committees in a Norwegian Island Parish. Human

Relations. 1954, 7(1): 39-58.

37 Nicholas A. Christakis, James H. Fowler. Connected: The Surprising Power of

Our Social Networks and How They Shape Our Lives – How Your

Friends’Friends’Friends Affect Everything You Feel, Think, and Do. Back

Bay Books. January 12, 2011.

38 Francisco S. Roque, Peter B. Jensen, Henriette Schmock, et al. Using

Electronic Patient Records to Discover Disease Correlations and Stratify

Patient Cohorts. PLoS Comput Biol. 2011, 7(8): e1002141.

39 Marisa S. Viveros, John P. Nearhos, Michael J. Rothman. Applying Data

Mining Techniques to a Health Insurance Information System. In: Proc. of

the 22nd VLDB, Mumbai, India. 1996, 286-294.

40 Sokol L, Garcia B, Rodriguez J, West M, Johnson K. Using Data Mining to

Find Fraud in HCFA Fealth Care Claims. Health Information Manage. 2001,

22(1):1-13.

41 Xiong Yun, Zhu Yangyong. Mining Peculiarity Groups in Day-by-Day

Behavioral Datasets. In: Proc. of 9th IEEE International Conference on Data

Mining (ICDE) 2009, 578-587.

42 Jinqrui He. Rare Category Analysis. ProQuest, UMI Dissertation Publishing,

September 30, 2011.

43 刘浩, 张可, 王笑京, 邵长桥, 涂辉招, Hans Van Lint. 交通动态数据获取

与分析应用新技术. 人民交通出版社. 2012 年 9 月.

44 Michael E. Porter. The Competitive Advantage: Creating and Sustaining

Superior Performance. Free Press. June 1, 1998.

45 方卿等. 出版产业链研究. 高等教育出版社. 2011 年 4 月.

46 季成, 徐福缘. 服务外部产业链. 上海交通大学出版社. 2011 年 9 月.

47 张雷. 产业链纵向关系治理模式研究——及对中国汽车产业链的实证分

析. 复旦大学博士论文, 2007.

48 Arthur Hughes. Strategic Database Marketing 4e: The Masterplan for Starting

and Managing a Profitable, Customer-Based Marketing Program. McGraw

Hill: 4 edition. December 20, 2011.

49 Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer,

Mark S. Smolinski, Larry Brilliant. Detecting Influenza Epidemics using

Search Engine Query Data. Nature 2009, 457(7232): 1012-1014.

Page 249: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

249

50 Renato Dulbecco. A Turning Point in Cancer Research: Sequencing the

Human Genome. Science. 1986, 231: 1055-1056.

51 Vernon W. Ruttan. Technology, Growth, and Development: An Induced

Innovation Perspective. Oxford University Press. September 14, 2000.

52 David Shotton, Katie Portwin, Graham Klyne, Alistair Miles. Adventures in

Semantic Publishing: Exemplar Semantic Enhancements of a Research

Article. PLoS Comput Biol. 2009, 5(4): e1000361.

53 Kyungjoon Lee, John S. Brownstein, Richard G. Mills, Isaac S. Kohane. Does

Collocation Inform the Impact of Collaboration? PLoS ONE 2010, 5(12):

e14279. doi:10.1371/journal.pone.0014279.

54 Merilee S. Grindle, Getting Good Government: Capacity Building in the

Public Sectors of Developing Countries. Harvard Kenney School. November

1, 1997.

55 Robert Lipton, Xiaowen Yang, Anthony A. Braga, Jason Goldstick, Manya

Newton, and Melissa Rura. The Geography of Violence, Alcohol Outlets,

and Drug Arrests in Boston. American Journal of Public Health. 2013, 103(4):

657-664.

56 (日)渡边利夫 编, 倪月菊, 赵英 译. 中国制造业的崛起东亚的回应:超越

“中国威胁论”. 经济管理出版社. 2013 年 10 月 1 日.

57 (美)布兰代斯 编, 徐爱国 译. 哈佛法律评论:侵权法学精粹. 法律出版社.

2005 年 12 月 1 日.

58 Viktor Mayer-Schönberger. Delete: The Virtue of Forgetting in the Digital Age.

Princeton University Press. July 5, 2011.

59 Clara Shih. The Facebook Era: Tapping Online Social Networks to Market,

Sell, and Innovate. Addison-Wesley Professional. July 31, 2010.

60 Stephen A. Ross. The Interrelations of Finance and Economics: Theoretical

Perspectives. The American Economics Review. 1987, 77(2): 29-34.

61 李梅, 叶桦. 世界各国新药的“科学探索”和“审查本位”的博弈. 中国

医药技术经济与管理. 2009, 3(5): 75-80.

62 William Poundstone. Priceless: The Myth of Fair Value (and How to Take

Advantage of It). Hill and Wang. January 4, 2011.

63 Chris Anderson. The Long Tail: Why the Future of Business is Selling Less of

More. Hyperion. July 8, 2008.

64 冯天瑜. 中国古代经略海洋的成就与局限. 苏州大学学报(哲学社会科学

版). 2012, 33(2): 160-166, 192.

Page 250: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

250

65 李雄炎, 李洪奇. 数据挖掘技术在石油天然气勘探领域的应用探索. 地球

物理学进展. 2009, 24(5): 1807-1813.

66 张培刚. 农业与工业化. 武汉大学出版社. 2013 年 4 月 1 日.

67 Sudipto Sarkar. A real-option rationale for investing in excess capacity.

Managerial and Decision Economies. 2009, 30(2): 119-133.

68 Jonathan E. Cook, Alexander L. Wolf. Discovering Models of Software

Processes from Event-Based Data. ACM Transactions on Software

Engineering and Methodology. 1998, 7(3): 215-249.

69 Paul Zipkin. The limit of Mass Customization. MIT Sloan Management

Review. 2001, 42(3): 81-87.

70 George B. Dantzig, John H. Ramser. The Truck Dispatching Problem.

Management Science. 1959, 6(1): 80-91.

71 Paul Hohenberg, Lynn Hollen Lees. The Making of Urban Europe, 1000-1994.

Harvard University Press. August 11, 1995.

72 David Allen. Getting Things Done: The Art of Stress-Free Productivity.

Penguin Books. December 31, 2002.

73 (美)彼得·德鲁克, 约瑟夫·马恰列洛 著. 蒋旭峰, 王珊珊 等译. 詹正茂

校.德鲁克日志(The Daily Drucker). 上海译文出版社. 2010 年 3 月 1 日.

74 Paul Timmers. Business Models for Electronic Markets. Electronic Markets.

1998, 8(2): 2: 3-8.

75 Alexander Osterwalder, Yves Pigneur, Christopher L. Tucc. Clarifying

Business Models: Origins, Present, and Future of the Concept. The

Communications of the Association for Information Systems. 2005, 16(1):

1-25.

76 Michael Morris, Minet Schindehutte, Jeffrey Allen. The Entrepreneur’s

Business Model: toward a Unified Perspective. Journal of Business Research.

2005, 58(6): 726-735.

77 Alexander Osterwalder. The Business Model Ontology – a Proposition in a

Design Science Approach. Institut d’Informatique et Organisation. Lausanne,

Switzerland, University of Lausanne, Ecole des Hautes Etudes

Commerciales HEC. 2004, 173.

78 Alexander Osterwalder, Yves Pigneur. Business Model Generation: A

Handbook for Visionaries, Game Changers, and Challengers. Wiley. July 13,

2010.

79 David W. Stewart, Zhao Qin. Intemet marketing, business models, and public

Page 251: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

251

policy. Journal of Public Policy&Marketing. 2000, 19(2): 287-296.

80 Raphael Amit, Christoph Zott. Value Creation in eBusiness. Strategic

Management Journal. 2001, 22: 493-520.

81 Peter F. Drucker. Innovation and Entrepreneurship. HarperBusiness. May 9,

2006.

82 Eric von Hippel. The Sources of Innovation. Oxford University Press. March

31, 1988.

83 Clayton M. Christensen. The Innovator’s Dilemma: When New Technologies

Cause Great Firms to Fail. Harvard Business School Press. May 1, 1997.

84 Henry Chesbrough. Business Model Innovation: Opportunities and Barriers.

Long Range Planning. 2010, 43(2-3): 354-363.

85 屈林岩, 郑若良, 王健, 李长荣 编. 战略管理与企业经营战略. 中南大学

出版社. 2004 年 1 月 1 日.

86 W. Chan Kim, Renee Mauborgne. Blue Ocean Strategy: How to Create

Uncontested Market Space and Make Competition Irrelevant. Harvard

Business Review Press. February 3, 2005.

87 Alfred Weber (Author), Carl J. Friedrich (Editor). Theory of the Location of

Industries. University of Chicago Press. 1965.

88 Michael E. Porter. Competitive Advantage of Nations. Free Press. June 1,

1998.

89 Michael Grossman. The Demand for Health, 30 Years Later: A Very Personal

Retrospective and Prospective Reflection. Journal of Health Economics 2004,

23(4): 629-636.

90 李映照, 龙志和. 要素流动与企业集聚形成. 中国经济出版社. 2007 年 6

月 1 日.

91 李宏舟. 战略性新兴产业与创业投资体系. 财经问题研究. 2012, 341(4):

22-29.

92 John A. Byrne. The Virtual Corporation. Business Week. 1993, 8: 36-41.

93 Constantinos C. Markides. Corporate Refocusing and Economic Performance,

1981-87. Unpublished Doctoral Dissertaion of Harvard Business School.

1990.

94 Alfred D. Chandler Jr. Scale and Scope: The Dynamics of Industrial

Capitalism. Belknap Press of Harvard University Press. April 1, 1990.

95 吕巍. 基于集聚效应的长三角都市圈企业经合研究. 格致出版社. 2009 年

12 月 1 日.

Page 252: 第一章 什么是数据产业 - Harvard University · 2019-10-19 · 1 第一章 什么是数据产业 根据对产业发展趋势的一般判断,“新一代信息技术”是未来重点4

252

96 Adam M. Brandenburger, Barry J. Nalebuff. Co-Opetition. Broadway

Business. December 29, 1997.

97 马宗国, 张咏梅. 产业集群竞争优势的来源——企业合争机制. 科学学研

究. 2006, 24(zl): 77-81.

98 Michael E. Porter. Clusters and the New Economics of Competition. Harvard

Business Review. 1998, 76(6): 77-90.

99 AnnaLee Saxenian. Regional Advantage: Culture and Competition in Silicon

Valley and Route 128. Harvard University Press. March 1, 1996.

100 Rui Baptista, Peter Swarm. Do firms in cluster innovate more? Research

Policy, 1998, 27: 525-540.

101 David J. Teece, Gary Pisano, Amy Shuen. Dynamic Capabilities and

Strategic Management. Strategic Management Journal. 1997, 18(7): 509-533.

102 John V. Henderson. Efficiency of Resource Usage and City Size. Journal of

Urban Economics. 1986, 19(1): 47-70.

103 Edward L. Glaeser. Triumph of the City: How Our Greatest Invention Makes

Us Richer, Smarter, Greener, Healthier, and Happier. Penguin Books.

January 31, 2012.

104 Everett M. Rogers. Diffusion of Innovations. Free Press. August 16, 2003.

105 牟锐. 中国信息产业发展模式研究. 中国经济出版社. 2010 年 9 月 1 日.

106 Ernst F. Schumacher. Small Is Beautiful: Economics as if People Mattered.

Harper Perennial. October 19, 2010.

107 黄欣, 周昀. 行政垄断与反垄断立法研究. 中国法学. 2001, (3): 99-107.

108 Douglas Kellner. Media Culture: Cultural Studies, Identity and Politics

between the Modern and the Post-modern. Routledge. January 26, 1995.

109 梁志文. 论个人数据保护之法律原则. 电子知识产权. 2005, (3): 10-17.

110 涂平. 论网络个人数据隐私权的保护. 上海交通大学硕士论文. 2007.