首页 » 大数据 » 大数据全文在线阅读

《大数据》第八章 数据开放运动

关灯直达底部

一个人做事情的动机,可以分为三类:一是求生,二是社会生活,三是娱乐。当我们的动机上升到一个更高的阶段时,我们才会取得进步:不是仅仅为了求生,更是为了改变社会,更理想的是——为了兴趣和快乐。01

——林纳斯·托瓦兹,Linux系统主要开发者、开源运动领导人,2001年

一个新的世界:从软件开源到数据开放

开放的社会是这样一个社会:在这里,人们已经认识到,要多多少少用批判的眼光来看待禁忌,人们会把个人的决定建立在他们自己的才智和掌控之上。02

——卡尔·波普尔(1902-1994),英国哲学家,1945年

我们正在进入一个新的世界,在这里,数据可能比软件还要重要。03

——蒂姆·奥莱理,奥莱理媒体创始人、技术活动家,2007年

1946年,人类发明了第一台计算机。

计算机一开始就是由软件和硬件共同组成的,但软件和硬件的发展,早期却未能并驾齐驱。相反,在很长一段时间里,软件都是作为硬件的附属而存在的,甚至“软件”(software)这个单词,也远远滞后于“硬件”(hardware)这个单词,直到1958年才正式形成的。

其中的原因,是因为最早的软件对硬件的依附性很强,换一个硬件平台,就可能无法运行;同一个软件产品,即使运行在相同的硬件平台上,其配置不经过修改,也无法销售给其他的客户。

因为可移植性差、通用性低,这时候的软件,大部分都是由硬件制造商一并开发的,作为硬件的一个搭配,免费提供给计算机的购买者。因为免费,软件的原始代码(也称源代码)大部分时候都是公开的。也正因如此,几乎所有人都相信,软件的开发必须量体裁衣、逐一定制,软件本身难以成为一个大规模销售的独立产品。

但接下来的半个世纪,软件产业却经历了从无到有、跌宕起伏的发展,形成了一个庞大的产业。在这个风起云涌的过程中,一些公司和个人,在其中扮演了极为重要的角色。

1955年,IBM的两名雇员辞职,创办了全世界第一家专门的软件公司:Computer Usage Company(CUC)。尽管走的是“一对一定制”的商业模式,CUC也不断发展壮大,到1967年,已经拥有了700多名雇员、年收入上千万美元,成了上市公司。

在软件业的发展过程中,美国联邦政府也起了举足轻重的作用。由于软件的可通用性低,整个软件产业最早是由个别大项目推动的。这些大项目,基本上都是由联邦政府认购、买单。其中最大的项目之一,是美国国防部和IBM在1959年开始合作的一个防空项目(Semi-Automatic Ground Environment),该项目致力于用计算机软件处理雷达收集的信号,侦察、跟踪天空飞行物的活动。

这个项目,前后跨度近30年,耗资近百亿美元,它不仅帮助IBM成为软件产业的巨头,也为美国培养了一大批程序员。类似的大项目成了程序员的摇篮和“西点军校”。在这些项目中成长起来的技术中坚,后来散布到各个行业,成为各个领域软件开发的带头人。正是联邦政府这些大项目带来的人才优势,几十年以来,美国的软件业一直在全世界占据领先地位。

1969年6月,IBM宣布,将从1970年起停止免费配送软件的做法,软件和硬件将分开定价。这个软、硬件分拆的决定进一步推动了软件行业的兴起,新的软件公司如雨后春笋般破土而出,用户开始在硬件提供商之外寻找、购买软件解决方案。

1970年代中期,个人电脑问世,随着电脑进入千千万万个普通家庭,软件开始真正具备成为大众化商品的可能性。

但真正把软件产业推进到商业帝国的,却不是IBM,而是一个年轻的后起之秀:比尔·盖茨。

盖茨相信软件行业蕴藏着巨大的商机。1975年,20岁的他从哈佛大学退学,创办了微软公司,致力于软件开发。此后二十年,如滚雪球一般,微软公司迅速扩大,这位辍学者,最后一手造就了一个世界级的软件帝国。

1976年2月,盖茨发表了一封著名的信件:《致爱好者的公开信》。他在信中谴责一些用户没有付费就使用微软公司的软件产品,并断言,这种不尊重版权、非法复制的做法将会阻碍、打击软件业的发展,他质问道:

“有谁会愿意免费、义务地从事如此专业的工作?哪个业余爱好者能投入3年的人力去开发、调试、编写文档,然后免费发布一个软件产品呢?”04

盖茨的这封信被后世认为是软件产业的一个重要里程碑。

此后,软件被理所当然地视为一种专利,是私有的,几乎所有的软件公司都开始拒绝公布源代码,商业软件开始大行其道。这种拒绝公开源代码的软件,后来被称为“专有软件”(Proprietary Software)。比尔·盖茨的声明,引领了一场软件商业化的大潮,也导致了专有软件的盛行。

长江后浪推前浪。在这个迅速崛起、瞬息万变的新生产业里,英雄辈出、各放光彩。这些英雄人物,不仅不拘于学历,更不拘于权威和禁忌,他们倾听内心的声音、服从理想的召唤。

比尔·盖茨固然是一代英雄,但他很快就受到了挑战。他的论断——“没有人能够免费地从事专业性的开发工作”、“软件的开发应该专有、应该封闭”,后来被事实证明是错误的。

新的挑战者具有很强的理想主义色彩。他们反对专有、反对封闭、反对商业化,他们认为封闭性的软件是一种自私、狭隘的做法,束缚了人类的创造性,阻碍了软件技术的传播和交流;他们强调自由、强调开放、强调创新,要求软件开发人员公开原始代码,认为这种公开不仅能提高软件行业的效率和效能,还有利于学习、交流和创造,为人类社会贡献最大的价值。

1983年,麻省理工学院人工智能研究所的一名资深程序员理查·斯托曼(Richard Stallman)发起了著名的GNU项目,目标是通过程序员之间自由的、志愿的协作,开发一套自由的、开放的操作系统,与定价销售的专有操作系统抗衡。1985年,他又成立了自由软件基金会(FSF),为GNU项目提供法律、经济和技术上的支持。这个不可思议的浩大工程,在1991年,因为另一位伟大程序员林纳斯·托瓦兹(Linus Torvalds)的突出贡献,最后成功实现。

自由软件运动和开源运动三剑客

理查·斯托曼:高中时代就开始为IBM编程,发起自由软件运动的时候不到30岁。自由软件运动的诉求,其实不同于后来的开源运动,它强调自由修改而不是免费,但对开源运动产生了巨大影响。

林纳斯·托瓦兹:完成Linux内核第一个版本的时候,还是一名21岁的在校学生。

埃里克·雷蒙:著名的黑客05,不到20岁就开始编程,不仅是开源运动的领袖,也是黑客文化的代言人,有多本著作问世。

三个人都是著名的程序员,先后成为自由软件运动、开源运动的领袖。(图片来源:维基百科)

这个免费的操作系统就是现在大名鼎鼎的“Linux”。

从1990年代起,互联网的普及更为轰轰烈烈的软件自由运动推波助澜,这时候的开放原始代码,不仅意味着在互联网上公开自己的代码,还意味着和分散在世界各地的程序员通过网络进行交流和协作。

1997年,埃里克·雷蒙(Eric Raymond)出版了《大教堂与集市》,他在这本书中详细地论述了开放原始代码的好处。他将传统的从上至下进行控制的软件开发方法比喻为“大教堂”,而通过互联网上公开分享自己的代码,就好像把一件商品放在了集市之上,自由地让别人浏览、评价。雷蒙总结道:

“足够多的眼睛,将使所有的错误都无所遁形。”06

雷蒙认为,Linux的核心开发人员林纳斯·托瓦兹就是这种集市模式的首创者,他因此将以上结论称为林纳斯定律(Linus' Law)。

集市模式的关键,不仅在于开放,更在于通过网络的交流、分工和协作。它的提出,不仅对软件开发本身,甚至对互联网时代的商业模式,都产生了深远的影响。例如,维基百科就是按集市模式通过大众自由协作而产生的,而网络版的大英百科全书则是典型的大教堂模式。

随着越来越多的公司和个人采纳了开放源代码的做法,1998年2月3日,主张开放代码和软件自由的各路精英齐聚硅谷,为这场运动正名,最后一致同意将这种发布代码、其他程序员可以对其进行自由修改并重新发布的做法称为“开源”(Open Source)。没多久,一个新的公益组织开源促进会(OSI)诞生了,雷蒙担任了首任主席,该组织很快为开源软件制定了十个标准,这些标准,获得了全世界软件行业的认同。

开源,不仅意味着以开放的姿态进行知识共享,还代表着自由、平等、协作、责任和乐趣等等理念。

林纳斯曾经就开源问题与微软公司的高层展开过激烈的辩论。微软公司批评开源运动严重地破坏了知识产权、扰乱了软件市场,林纳斯则反击微软是一人独大、金钱障目,他后来解释他的初衷说:

“一个人做事情的动机,可以分为三类:一是求生,二是社会生活,三是娱乐。当我们的动机上升到一个更高的阶段时,我们才会取得进步:不是仅仅为了求生,更是为了改变社会,更理想的是——为了兴趣和快乐。”

这段话,是开源领袖们的价值宣言,也深刻地解释了开源运动为什么能够成功的原因,因为其经典,被称为“林纳斯第二定律”。

在软件开源的运动当中,还有一个人占有历史性的地位,他就是世界闻名的计算机书籍出版商蒂姆·奥莱理(Tim O'Reilly)。奥莱理也是开源运动的坚定支持者,他常常自己掏腰包,赞助开源社区的活动和会议。1999年,他的出版社奥莱理媒体(O'Reilly Media),推出了全世界第一本开源文集:《开源革命之声》07。此后,“开源”的概念才开始慢慢走出程序员的群体,成为一个广为人知的概念。

蒂姆·奥莱理

爱尔兰移民,文科毕业生,后来对计算机产生兴趣,成为一名致力于“传播创新知识——改变世界”的计算机图书出版人。他对他旗下出版社的定位是“新技术的转移者”,他也是“Web 2.0”一词的首创之人。(图片来源:维基百科)

伴随着他们的摇旗呐喊,越来越多的开发人员和软件公司开始加入开源运动的行列。进入21世纪以后,开源软件已经深入人心,几乎整个软件业都认识到了开放源代码的重要性及其好处,开源软件的产品也数不胜数、衍伸到各个领域,最早与开源势不两立的微软公司,也开始拥抱开源的做法。时至今日,要想在任何一个行业,找到一个没有开源软件的例子,已经相当困难。

本书第四章曾经谈到,软件是由代码和数据共同组成的,“开源”,指的只是开放代码,并不包括数据。但当开放代码已经成为共识和现实的时候,新一代的创新者,自然又将眼光投向了数据。

考察软件构成的一个角度

虽然同为软件的一部分,但开放数据(Open Data)和开放代码却大不相同。开放代码面向的对象仅仅是程序员,也就是说,它停留在技术的层面;但数据的开放,其涉及面却广得多,它不仅和技术人员相关,还与数据的来源、性质以及过去和未来的使用人员都息息相关。

开放数据也不仅仅意味着公开数据。要让数据可以重复使用、自由加工,数据公开的格式至关重要。还有,数据不像代码,代码无关个人,数据却可能涉及个人的隐私。

所以,什么样的数据可以开放、应该开放?又以什么形式开放?谁来开放?这些,都是要在开放之前必须回答的问题。

也因为这种种不同,数据开放面临更大的挑战和阻力,数据开放也没有像代码开放一样在商业领域兴起,数据开放的诉求,首先直指公共领域的公共数据,也就是美国联邦政府收集、拥有的数据。

当然,站在这个潮头浪尖的,还是一批年青的技术精英。他们相信,在互联网时代,无论是代码还是数据,只有开放,才能集聚群体的智慧、激发创新的力量、放射出更大的价值,真正推动社会的进步。

2004年,普林斯顿大学的本科生乔舒亚·陶伯拉(Joshua Tauberer)建立了美国民间首个公共数据的开放网站:TrackGov.us。

乔舒亚·陶伯拉

高中时代就开始学习编程,2000年入读普林斯顿大学心理学专业,利用在校的业余时间开发了TrackGov.us。2010年他获宾夕法尼亚大学语言学博士,目前担任公益网站Popvox.Com的首席技术官。

TrackGov.us是一个关于国会立法法案的数据开放网站。前文谈到过美国国会的立法步骤,美国是一个法律大国,在美国国会,任何时候都有一万多个法案处于讨论状态,每一个法案,都涉及千千万万公司和个人的利益。这些法案由谁发起、哪些议员支持、哪些议员反对,投票的结果、修改的次数、通过的时间、法案的内容以及当前的状态等等记录,不仅可以在这个网站上查询,还可以通过RSS邮件跟踪,所有的数据记录,都可以下载、重复使用。

TrackGov.us每月有近百万的点击率。毫无疑问,该网站给学术研究人员带来了极大的方便,也为关心某个法案的公司、个人提供了在线查询跟踪的工具,同时,这些数据还成为新闻界监督政府的利器。

2008年5月,奥巴马、希拉里、麦凯恩3人的选战正酣。根据TrackGov.us的数据,《纽约时报》揭露:从2007年的财政年度始,国会共进行了220次投票,但因为忙于竞选,奥巴马、希拉里各自缺席151次,麦凯恩更甚,缺席164次,高达75%。该报批评说,他们没有履行职责,却照拿工资。08

陶伯拉曾经解释自己建立TrackGov.us的初衷:大部分美国人都不了解美国国会的立法程序,他想帮助普通公民增强对于国会的认识,缩小国会运转的真实情况与他们想象之间的差距。

2007年12月,又是在蒂姆·奥莱理的召集下,陶伯拉和其他29名开放公共数据的推动者共聚奥莱理出版社的加州总部。通过两天的会议,他们制定发布了开放公共数据的8条标准和原则。09奥莱理在会上感叹说:

“我们正在进入一个新的世界,在这里,数据可能比软件还要重要。”

公共数据开放的8大基本原则

1.数据必须是完整的

2.数据必须是原始的

3.数据必须是及时的

4.数据必须是可读取的

5.数据必须是机器可处理的

6.数据的获取必须是无歧视的

7.数据格式必须是通用非专有的

8.数据必须是不需要许可证的

这是历史上第一次开放数据的正式集会,也是美国民间第一次尝试建立开放数据的标准和共识。会议将“数据”定义为“一切以电子形式存储的记录”,会议声明:

我们并不决定什么样的公共数据可以开放,我们仅仅为开放制定标准和原则,定义什么才是“开放”。

从这8大原则可以看出,数据开放运动沿袭了软件开源运动的很多诉求,例如通用非专有、机器可处理、获取无歧视等等,数据开放运动可以看做是开源运动在软件领域的一个深化。

但这种深化,已经不仅仅局限在技术领域。开源运动对美国社会乃至全世界的影响,已经渗透到政治、文化、社会生活等各个方面,衍生出开放政治(Open Politics)、开放政府(Open Government)、开放媒体(Open Media)、开放城市等等一系列的运动和口号。

开放,已经成为互联网时代一股不折不扣的浩荡风潮。

这股风潮的触发和形成,其起点还是本书第二章探讨的摩尔定律。正是由于数据存储器的性能不断上升、价格不断下降,人类复制、传播信息的边际成本一降再降,再加上互联网的出现,信息的交流和共享变得前所未有地简单、方便、快捷,人类开放的梦想和渴望才得以一个接一个地实现。

总统的雄心:公共财政支出透明

联邦政府掌握和维护的信息是整个国家的资产和财富。10

——奥巴马,2009年1月21日

如果我们坐等他人,那改变就不会到来。我们自己——就是我们一直在等的人,我们自己——就是我们所要寻求的改变。11

——奥巴马,竞选总统时的演讲,2008年2月5日

正是在陶伯拉发布第一个数据开放网站TrackGov.us的同年,2004年11月,奥巴马赢得了联邦参议员的选举。

次年1月,他踌躇满志,从芝加哥飞往了华盛顿。

有理由相信,初起乍兴的数据开放运动,也进入了他的视野。

因为,作为联邦参议员,奥巴马就任之后成功推出的第一份法案,就是一份有关数据开放的法案。

美国国会参议员的任期,是6年一届。奥巴马在参议员的位置上,只干了3年多。根据TrackGov.us网站上发布的数据,在他短暂的参议员生涯当中,奥巴马作为第一发起人提出过137个法案,但最终成为法律的,却仅仅只有2个。奥巴马还作为合署人和其他议员共同发起过600多个法案,最后通过的也屈指可数。

奥巴马成功交出的第一份答卷,是2006年4月作为主要合署人和共和党参议员科伯恩(Tom Coburn)联合推出的《联邦资金责任透明法案》(FFATA)12,这个法案后来产生了广泛的影响,也被称为《科伯恩—奥巴马法案》。

这个法案要求联邦政府向全社会开放所有公共财政支出的原始数据,这些数据,包括政府和私营机构的购买合同、公共项目的投资、直接支付以及贷款等等明细。其基本理念和TrackGov.us是一样的:建立一个完整的、专业的公共支出数据开放网站,以统一的格式提供可以下载的数据,以供公众查询使用。

奥巴马是民主党员,科伯恩属共和党,作为一个跨党提案,该法案在参众两院都高票通过,2006年9月,经小布什签署后,成为法律。2007年,根据该法的规定,网站USAspending.gov上线发布,成为美国联邦政府发布公共支出信息的门户网站。

USAspending.gov是个巨大的数据开放网站,可以对联邦政府2000年以来高达3万亿的政府资金使用情况以及30多万个政府合同商所承包的项目进行跟踪、搜索、排序、分析和对比,其数据每两周更新一次。网站上线之后,受到了社会各界的极大好评,获得了“政府搜索引擎”(Google for Government)的美誉。

当然,这个法案的产生和通过,并不仅仅是奥巴马和科伯恩两人力推的结果。

2006年9月8日,布什总统签署《科伯恩—奥巴马法案》,左三为奥巴马。(图片来源:网络)

公共支出数据的开放,真正的先行者,还是美国民间的普通公民。

USAspending.gov网站建立的背后,更有一段国会、政府和公益组织3方携手合作的佳话。

上文说到,开放数据的运动兴起之后,首先直指公共数据。有一批社会活动家和公益组织,多次召开民间会议,发起游说活动,督促政府开放公共数据,政府财政支出的数据正是其中的焦点。

“OMB监督”(OMB Watch)就是这其中最执著、强力的行动者之一。这是一个位于华盛顿的公益组织,由加里·巴斯(Gary Bass)于1983年创办。“OMB监督”以监督政府的预算、税收和工作绩效为己任。它的直接监督对象是总统行政办公室下属的行政管理预算局,该局简称为OMB,这也是该组织之所以命名为“OMB监督”的原因。

加里·巴斯

“OMB监督”的创建者,也是信息公开的主要鼓吹者。

“9·11”之后,他仍然坚持政府应该加大信息公开的力度。他在“OMB监督”工作了28年,除了fedspending. org,还在1986年筹建了知情权网络(Right-to-Know Network),该网站为公众提供环境保护和空气质量的数据。1999年以来,巴斯连续10年当选最具影响力的公益领袖(Nonprofit Times Power and Influence Top 50)。

美国的联邦政府其实很早就开始公开发布公共支出的信息,但这种发布是零散的、不系统的,其发布形式可能是新闻发言、文字简报,也可能是电子数据,很不统一。2005年,巴斯意识到,如果能将联邦政府全部的开支数据统一发布在同一个网站,全社会就可以更好地查询、研究和监督联邦政府的开支和预算。

巴斯后来为这个项目发起了专门的社会募款活动。通过筹款集资、整理数据、开发网站、接洽政府等一系列的工作,2006年,“OMB监督”推出了美国首个公共支出的数据开放网站:Fedspending.org。

Fedspending.org能够逐条跟踪、记录、分析、加总OMB发布的每一笔财政支出。它推出之后,受到了全国舆论的好评,《洛杉矶时报》盛赞其为“财政透明的起点”。

正是受到这个网站的直接启发和帮助,科伯恩、奥巴马发起了《联邦资金责任透明法案》,奥巴马本人,也在这个法案的草拟和推行过程中,和“OMB监督”建立了合作关系。

《联邦资金责任透明法案》通过之后,根据它的规定,行政管理预算局也必须建立一个和Fedspending.org类似的网站,向全社会统一开放联邦政府所有的公共支出数据。

就功能而言,这个待建的政府网站和“OMB监督”已有的网站是相同的。但不同的是,一个是“民营”,一个是“官办”。巴斯在获悉之后,主动走访了行政管理预算局,表明自己愿意提供技术方面的帮助。行政管理预算局的副局长谢伊(Robert Shea)对此大感意外,他是新网站建设的负责人,在他眼里,“OMB监督”就是一只彻头彻尾的“牛虻”,一年到头对他提意见、叮人咬人。对巴斯主动提供的帮助和合作意向,谢伊一不习惯、二不情愿。

这时候,奥巴马从中斡旋,通过他的穿针引线,“官”“民”双方最后形成了合作关系。新生的USAspending.gov网站几乎原封不动地使用了Fedspending.org的数据库、应用程序接口(API)和在线文档,行政管理预算局因此大幅节约了经费,“OMB监督”也获得了60万美元的报酬,可谓双赢。13

这个例子,证明了监督者和被监督者之间的关系也并不总是对立的,两者之间的关系是可以转变的,政府和公益组织之间也可以开展合作。奥巴马对此体会很深,这正是他上任第一天在他首份总统备忘案中阐述的“多方协作”概念:

“政府应该是多方协作的。多方协作让美国人民积极地参与政府工作。各行政部门和机构应利用新的工具、方法和系统,在各部门之间、各级政府之间全面协作。此外,还要与非营利组织、企业和个人进行协作。各行政部门和机构要广泛征求公众的反馈,以评估协作的效果,确定新的协作机会。”

当然,不可否认,奥巴马能站到开放数据的前沿,和他个人的志趣和爱好也有很大的关系。

有评论说,奥巴马是美国历史上对高科技最感兴趣的总统。他上社交网站、用智能手机,并亲自发推特(即微博),拥有1000多万推特粉丝。2008年的总统大选已经成为历史,不少评论家、分析家都认为,正是因为娴熟地利用了信息技术助选,奥巴马才得以入主白宫。

在他的椭圆形办公室里,除了黑人领袖马丁·路德·金的肖像和家人的照片,奥巴马还摆放着不少机械发明的模型。在他书架的顶层,是1877年威廉姆斯(Henry Williams)发明的汽船活叶明轮模型,底层则摆放着1874年皮尔(John A. Peer)设计的齿轮加工机床模型。白宫的文物馆长埃尔曼(William Allman)曾经评论说,这些金属模型反映了奥巴马的个性和特点:他对“美国的历史、科技以及创新”都有浓厚的兴趣。

《联邦资金责任透明法案》的通过和效果,加上民间的强烈诉求,都激发了奥巴马的雄心。几年的参议员生涯,奥巴马参与联署过数百个法案,涉及社会民生的方方面面,他清楚地知道,公共财政支出的数据只是联邦政府所拥有数据中的很小一部分,可谓九牛一毛、冰山一角。

2007年2月,奥巴马宣布参选总统。11月14日,他作为总统候选人,来到了硅谷山景城(Mountain View),访问了谷歌公司的总部。在和谷歌员工的对话交流中,他再一次谈到了建设USAspending.gov网站的初衷:

“人民知道得越多,政府官员才可能更加负责任。”

奥巴马的椭圆形办公室,其办公桌正后方的桌子上摆满了他与太太及两个女儿的照片,奥巴马曾经在接受采访时解释说,这些照片在提醒他“为什么要做现在的事情”。

奥巴马的书柜,上下两层各摆着两个机械模型,都是历史上伟大的发明。

(图片来源:www.whitehousemuseum.org )

他在演讲中说:

“互联网可能是历史上最伟大的开放工具……作为总统,我将把政府的数据用通用的格式推上互联网。我要让公民可以跟踪、查询政府的资金、合同、专门款项和游说人员的信息。为了确保每一个政府机构都能跟上21世纪的标准,我将会任命我们国家的首位首席技术官(CTO)。”14

当他讲到要把政府的数据推上互联网的时候,他的演讲被一阵掌声打断,当他讲到要开创历史、任命“联邦政府首位首席技术官”时,人群中爆发出一阵更为热烈的掌声。

2009年1月21日,奥巴马走马上任,入主白宫。

他果然很快兑现了诺言。

数据民主:印裔首席信息官的崛起

这是一场数据民主化的运动,我们正在把信息的力量放到美国人民的手中。15

——维伟克·昆德拉,联邦政府首任首席信息官,2010年

2009年3月5日,奥巴马就任不到两个月,就任命了联邦政府的首席信息官;4月18日,他又任命了首位首席技术官。

这是奥巴马创设的两个全新的职位。

奥巴马的创意激起了联邦政府一系列的创新。此后,联邦政府各个部门不仅出现了越来越多的首席信息官,2010年,联邦政府通信委员会(FCC)甚至还率先设置了首席数据官(Chief Data Officer)的职位。

获任联邦首席信息官的是一位年轻的印度裔移民:维伟克·昆德拉(Vivek Kundra)。作为美国联邦政府历史上第一位首席信息官,他立刻引起了全国的关注。

和奥巴马一样,昆德拉的童年几经迁徙。他1974年出生在印度新德里,2岁随父母迁居坦桑尼亚,11岁全家移民美国。他曾经坦言,这些跨国经历加深了他对于不同国家、不同制度的理解。昆德拉后来加入了美国国籍,他说他热爱美国的民主制度,他甚至选择费城宪法中心作为自己举办婚礼的地点。

昆德拉毕业于马里兰大学,获得过信息管理的硕士学位。他毕业之后,经营过几个创业公司,但并不成功。2001年,他决定加入公共领域。“9·11”事件发生的当天上午,他正在阿灵顿县政府面试“技术主任”的职位。面试被世贸中心的撞机警报打断了,面试官立即打开了电视,第二架飞机正撞向世贸中心的玻璃外墙。屏幕上浓烈的黑烟和火焰令他震惊,也坚定了昆德拉进入公共领域、服务社会的决心。

昆德拉后来回忆道,这特殊的一天,标志着他在公共领域职业生涯的起点。

昆德拉后来还在弗吉尼亚州州政府的技术管理部门工作过。2007年5月,他被华盛顿特区的市长任命为该市的首席技术官。新市长芬蒂(Adrian Fenty)是一位70后,他重视新技术的应用,强调用“透明和开放”来打击腐败。

维伟克·昆德拉(Vivek Kundra)

联邦政府第一任首席信息官,担任此职时不满35岁。

阿尼西·乔普拉(Aneesh Chopra)

联邦政府第一任首席技术官,和昆德拉一样,他也是印度裔移民、70后。

(图片来源:维基百科)

作为首都的首席技术官,昆德拉带领着一支600人的技术队伍、掌握上千万美元的预算。这个位置,成了他真正起飞的平台。

但昆德拉的崛起,并不仅仅是因为这个职位以及其带来的资源。他的机遇,更多的是因为华盛顿的“地利”。

本书第三章曾提到,1994年,纽约街头警察梅普尔利用地图和数据打击犯罪,他设计了“CompStat”的软件。当这个软件横空出世之后,在美国的治安领域获得了巨大的认可,成为一种警务管理模式,迅速被全国各地的警察部门仿效。

随着“CompStat”席卷全国各地的警察部门,有人在动更多的脑筋:能不能把这种数据分析的模式推广到整个城市的管理,而不仅仅局限于治安领域?

奥马雷(Martin O'Malley)就是这个想法的认真尝试者。

他是马里兰州巴尔的摩市的市长。2000年,在他的推动下,该市推出了基于整个城市管理的“CitiStat”。像“CompStat”一样,“CitiStat”一推出,就获得了成功,引起了全国的关注,后来也获得了哈佛大学的美国政府创新奖。

没过几年,奥马雷又当选为马里兰州的州长,他又把这个项目推广到州一级的政府,推出了“StateStat”。

这自然引起了其他一些城市的仿效。

华盛顿特区正是“CitiStat”的追随者。2004年,他们推出了“DCStat”的项目。16

为了建设“DCStat”项目,华盛顿特区收集整理了大量的数据。

这些数据才真正成就了昆德拉。他一上任,就给市长芬蒂建议,“DCStat”的数据不仅仅要给城市的管理者分析、使用,还应该对全民开放。在新市长的支持下,昆德拉推出了“城际数据仓库”(Citywide Data Warehouse)项目,把华盛顿特区政府拥有的各类公共数据推上互联网,允许全球任何人访问和下载。昆德拉把这种做法称为“数据民主化”(Democratizing Data)。

奥马雷市长在召开CitiStat的管理分析会议,他强调用数据分析的方法推动城市绩效管理。

奥马雷是律师出身,他1999年当选巴尔的摩市的市长之后,第一个政绩就是推行“CitiStat”,他的成功获得了美国很多个城市的关注和仿效。奥马雷连任两届市长,并于2006年当选为马里兰州州长。(图片来源:Center for American Progress)

之所以称之为“数据民主化”,是因为“城际数据仓库”开放的不仅仅是一个专业领域的数据,而是大量与民生相关的数据。2004年陶伯拉建立的TrackGov.us专注于立法,2007年奥巴马推出的USAspending.gov集中在公共支出,昆德拉开放的却是更综合、更广泛的数据,例如学区学位的情况、青少年的犯罪情况、交通事故发生的时间和地段,以及公用场所的租用情况等等与市民日常生活息息相关的数据。而这些数据,曾经仅仅是政府管理人员的内部决策参考,是官员的“专利”,市民大众无权使用。

当然,作为首席技术官,昆德拉的成就并不仅仅局限在城际数据仓库的项目。在他任职的一年半中,他试图在公共管理的各个环节中使用最新的信息技术:他将市政府的微软WORD办公软件升级为可以在线协同合作的Google在线文档;他要求市政合同的投标、开标过程一律录像,并在Youtube的视频网站上公开。他还组织开发了一个“数字公民广场”,允许居民通过脸谱网站(Facebook)来提交更换驾驶证的申请;下雪天,居民还可以上网实时查看街道积雪的情况、扫雪的进度。

昆德拉的另外一个“地利”在于:他和奥巴马同在国家的政治心脏。作为首都,华盛顿是一个只有60万人口的小城,昆德拉勇于开拓、敢于变革的形象自然引起了奥巴马的侧目。2008年11月,奥巴马取得了总统大选的胜利、拿到了白宫的入场券,他立刻邀请昆德拉加入他的白宫交接团队,为入主白宫做准备。

城际数据仓库项目的主页界面

截至2011年12月,华盛顿特区“城际数据仓库”的项目已经开放了484组数据。(图片来源:data. octo.dc.gov)

昆德拉当然接受了邀请。回到本书的序幕,2009年1月21日,上任第一天,奥巴马签署了他的首份总统备忘案:《透明和开放的政府》。在这份文件中,他阐述了他的执政理念:通过公民参与、多方合作,建设一个前所未有的开放政府。他还在备忘案中命令联邦政府的首席技术官要会同行政管理预算局(OMB)在120天以内制订出一个开放政府的具体行动方案。

120天,也就是从1月21日算起,限期4个月。

接下来的工作,当然是紧锣密鼓。3月5日,奥巴马提名昆德拉担任联邦政府的首席信息官,很快获得了国会的批准。奥巴马在任命书中说:

“首席信息官将和首席技术官密切配合,实现总统关于技术的设想和计划。……我命令昆德拉发扬美国的创新精神,应用科学技术的力量提高政府的绩效、降低政府的开支。作为首席信息官,他将确保我们的政府以最安全、开放和高效的方式运作。”17

经过几个月的交接和磨合,昆德拉已经对于总统“关于技术的设想和计划”以及奥巴马的雄心都心领神会。他清楚地知道自己的使命。3月11日,昆德拉上任还不到一周,就召开了联邦政府各部门信息主管的工作会议,拿出了如何提高绩效、增加联邦政府开放性的主体计划。

这就是:为联邦政府建立一个统一的数据开放门户网站——Data.Gov,全面开放政府拥有的公共数据。

美国公共数据开放的编年里程碑

Data.Gov:从旗舰初航到保“数”运动

Data.Gov的主要目标是开放联邦政府的数据,通过鼓励新的创意,让数据走出政府、得到更多的创新型运用。Data.Gov致力于政府透明,全力把政府推向一个前所未有的开放高度。它带来的开放将巩固我们国家的民主,提高政府的效率和效能。18

——Data.Gov的目标和使命陈述

但昆德拉很快意识到,联邦政府毕竟不是一个小小的华盛顿特区。现在,他要面对的是美国政府15位内阁部长,70多个独立机构的局长、主任和主席。部中有部、局中有局,仅仅一个数据的开放,就可能要经过层层的审批和反复的磋商。

这层层关卡的背后,是一种沿袭了上百年的行政文化。这种文化,虽然看不见、摸不着,却无处不在。

从古至今,所有的政府,都带有保密、封闭的文化基因。虽然一谈到透明和开放,大部分人都会认可这是正确的价值观,但一旦要自己透明、要自己开放,那开放和透明就立刻变成了一种威胁。面对庞大的公共信息,政府首脑的第一反应往往是“安全第一、保密为上”;具体到一线的工作人员,也是“多一事不如少一事”,直接打上“保密”的标签,最为简单省事。

与当年的《信息自由法》、《电子信息自由法》不同的是,这一次并不是国会“逼宫”,而是联邦政府领导层自发的改革。但尽管总统已经表态,联邦政府各个部门的头头脑脑还是对开放数据的做法感到忧虑,他们表达了各式各样的反对意见,一时甚嚣尘上,争议主要集中在以下几个方面:

1.原始数据之争

是要开放最原始的数据,还是经过加工和解释的数据?如果数据可以加上解释,各部门又应该加上多少程度的说明、解释和观点呢?

昆德拉主张开放原始的数据。但反对者认为:数据是死的,分析是活的;同一组数据,不同的时间、不同的人可能会有不同的解读。如果不加上自己的注解和观点,数据的使用者、分析者可能会得出与政府部门不一样的结论。此外,很多数据属于高度敏感的指标,例如价格消费指数、失业率等等,对于它们的解读,可能会影响一个行业、一个地区甚至整个国家的经济发展走向。开放公共数据的初衷之一是提高公众对于政府的信任,如果出现不同的解读,可能适得其反,影响政府的公信力。那不是搬起石头砸自己的脚吗?

2.数据安全之争

如前文所述,数据整合往往会产生“1+1>2”的效果。两组分别貌似安全的数据,一旦整合相联,可能会产生意想不到的结果,对国家的安全产生威胁。

反对数据开放的人认为:互联网上的开放,是面对全世界的开放,国际政治错综复杂,国家利益很容易在不知不觉中受到损害。

3.数据质量之争

各个政府部门之间存在职能交叉,收集的数据也不免有所交叉,如果两个部门的数据不一致,应该以谁的数据为准呢?又该如何向公众解释呢?即使对同一性质、同一类别的数据,新数据还在源源不断地产生和收集,谁来保证新旧数据之间的一致性呢?

有人认为:由于跨部门、跨时间而产生的数据不一致难以消除,如果数据的质量没有保证,数据的开放给政府带来的不是透明和信任,而将是层出不穷的麻烦。

4.数据粒度之争

即使同一组数据,政府也存在多个版本和形式,应该开放哪一组呢?是粗线条的?还是粒度最小、最细的数据格式?

有人主张数据开放宜粗不宜细。

昆德拉主张:构建语言的单位不是句子,而是字母。人们用字母来创建单词、句子和文章。数据也一样,要用最小的粒度把数据呈现给用户,让不同的用户各取所需,无论是警察还是社区居民,自己去决定怎样组合它们。可能的组合是无穷无尽的。这样数据才能发挥全部的潜在价值。

5.数据价值之争

必须首先开放社会最需要的数据,即高价值的数据,这是共识。但何为高价值?却众说纷纭。

昆德拉认为:价值本身是一个基于主观的定义。同一组数据,在不同的时间、对于不同的对象,其价值是变化的。如果缺少背景,数据本身没有任何价值。丰田汽车召回事件发生之前,它的油门数据很少人会感兴趣。但事故一发生,就会有很多人需要它的数据。

昆德拉主张:凡是能增强公众对政府部门的问责能力和政府部门的反应速度、提高公众对于政府机关及其运作的了解、推进部门的核心使命、创造经济发展的机会或者满足公众特定要求的数据,就是高价值的数据。

6.网站虚实之争

Data.Gov的网站仅仅是一个数据的集散地,还是既提供数据又提供专门的分析工具?即便是集散地,也有虚实之分,是一个真正的数据仓库,还是一个数据索引库,源数据仍然保存在各个部门?

很多人认为Data.Gov应该是一个真正的数据集散地。奥巴马的公共支出开放网站、华盛顿的城际数据仓库都是真正的数据集散地。但昆德拉主张:联邦政府的部门太多,难以维护,Data.Gov网站应该是个索引库,各个部门仍然是各自数据的真正所有人和维护人。但用户从索引的链接跳跃到实体的数据,点击鼠标的次数不能超过3下。他还建议,网站建立初期,应该提供一些分析工具。

对每一个问题,昆德拉的心里其实都有自己的答案。但他知道,他还无法立刻说服大大小小的各级官僚。如果任由讨论继续下去,可能一两年也不会达成共识和实质性的结果。他坚信开放数据是正确的方向,他认为,如果一个社会真的要把开放作为一种正确的价值观来对待,就必须付诸行动。

他决定重点突破,先从一些没有争议的数据开始,并快刀斩乱麻,尽快推出一个技术平台。

2009年5月21日,距离奥巴马签署《透明和开放的政府》整整120天,Data.Gov上线发布了。

Data.Gov按原始数据、地理数据和数据工具三个门类组织开放的数据。上线的第一天,即使包括地理数据,这个新生网站上也仅仅只有47组数据、27个数据分析工具。

但即便如此,作为一个全国性的创举,Data.Gov还是受到了新闻界和大众的关注。上线第一天,该网站接受了210万的点击量,第二天又收获了250万的点击量。前两个月,创下了2000多万次的访问总量。

在众多的关注者中,有一家与众不同。他们从昆德拉一上任,就憋足了劲,全力支持Data.Gov,为它的每一个进步大声鼓呼。

这就是阳光基金会(Sunlight Foundation)。

就在Data.gov上线的同一天,5月21日,阳光基金会的主任艾伦·米勒(Ellen Miller)宣布设立25000美元的奖金,举办程序员公共数据开发大赛(App for America)。参赛作品必须使用Data.gov开放的公共数据,可以是一个数据分析的程序,也可以是一个数据可视化的应用,还可以是社交网站和智能手机的插件。

奥莱理出版社的CEO蒂姆·奥莱理又是本次大赛的赞助人和第一评委。

虽然Data.Gov初次上线只开放了47组数据,但3个月内,阳光基金会却收到了47个新开发的应用程序。这些程序,其中一些相当经典,以至于《纽约时报》、《华盛顿邮报》都对它们作了报道。当然,这些应用程序也成为昆德拉游说其他部门开放更多数据的超级“武器”。

8月26日,Data.Gov上一次性新增了178项原始数据。但昆德拉并没有松懈,他立足“互动”、不断完善Data.Gov平台的功能,先后加入了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。例如,用户可以在网站上直接向联邦政府建议开放新的数据,而相关部门必须给出回应,若不同意开放,也要列出理由。从2009年5月至12月,Data.Gov共收到社会各界约900项开放数据的申请,联邦政府最后回复:16%的数据立即开放,26%将在短期内开放,36%将计划开放,还有22%因为国家安全、个人隐私以及技术方面的限制无法开放。

2009年12月8日,行政管理预算局(OMB)发布了《开放政府的指令》(Open Government Directive),命令各个联邦部门必须在45天之内、在Data.gov上至少再开放3项高价值的数据。

2010年2月,米勒又代表阳光基金会给昆德拉发出了一封公开信,对于政府各部门开放的高价值数据做了一次全面的评估,她直接批评11个机构对于开放数据的消极态度,并对数据的格式和质量提出了十分具体的建议。

迈克尔·克莱(Michael Klein)

迈克尔·克莱是一名退而不休的律师。2006年4月,他捐资600多万美元创立阳光基金会,该基金会的使命是“立足信息技术和互联网,促进政府的透明和开放”。

艾伦·米勒

阳光基金会的主要创建人之一。她已从事公益事业、草根运动35年,获得荣誉无数。还曾经创建过另外两家知名的公益机构:政治问责中心(Center for Responsive Politics)和公共运动(Public Campaign)。

随着这种从上到下、由外至里的高压态势,数据开放的步伐开始逐步加快。

2010年5月21日,Data.Gov上线发布的一周年纪念日,联邦政府开放数据的总数达到了27万项。

截至2011年12月,Data.Gov上共开放了原始数据3721项、地理数据386429项。

作为Data.Gov这艘旗舰的舰长,昆德拉再次获得了成功。他的成功,也引起了美国各界甚至全世界的关注。昆德拉先后获得了一系列的奖项和认可,他被评选为年度CIO,被推选为世界经济论坛的青年领袖。

2011年,美国信息产业的巨头、全球500强之一的EMC公司,宣布建立“数据英雄奖”(Data Hero Award),以奖励那些“在大数据时代用数据对个人、组织、产业和世界产生了深远影响的从业人员”。2011年5月9日,EMC的评审委员会决定将首届“数据英雄奖”颁给昆德拉。舆论上下一致认为实至名归。

大众创新:航班延误之候机经济学

数据不会被它所激发的思想和创新消耗,相反,它可以为创新提供无穷的燃料。一小片合适的信息,可以促使创新迈进一大步。一组数据,可能会得到数据收集人难以想象的应用,也可能会在另一个看起来毫不相关的领域得到应用,因为这些创新型的应用,数据的能量将层层放大。19

——《利用数据的力量服务科学和社会》,联邦政府跨部门工作组给总统科学技术委员会的报告,2009年1月

保“数”运动(Save the Data Campaign)

Data.gov的发展并不是一帆风顺的。

2011年4月,由于预算赤字,美国联邦政府被迫大幅削减开支。国会宣布,原来用于支持Data.gov、USASpending.gov等数据开放网站的3400万美元年度预算将缩减到200万美元,这意味着个别网站可能被迫关闭。

以艾伦·米勒为首的阳光基金会立即联合13家公益组织,发起了“保数运动”。他们联合一些知名的技术精英和社会活动家,征集了3000多位公民的签名,给国会的众议长以及两党的领袖发出了公开信,要求国会在预算博弈中保护Data.gov。这场运动也受到国家公共电台等十多家媒体的报道和关注。

次月,国会表态,该项目的预算将最少增加到800万美元。

由政府主导、向全社会开放政府拥有的公共数据,这种做法,本身就是一种创新。但更重要的是,Data.Gov不仅仅是一个创新的结果,它的出现,代表着数据在社会的自由流动、知识向大众的自由流动,这为更多的大众创新、社会创新提供了一个平台。

截至2011年12月,仅仅在Data.Gov网站上,就汇集了1140个应用程序和软件工具、85个手机应用插件。其中,有近300个是由民间的程序员、公益组织等社会力量自发开发的。

本书将从中选择几个,立足细节,对美国社会如何利用公共数据进行创新做一个分析和介绍。

候机经济学:航班延误分析系统

近年来,因航班延误产生的机场纠纷一度在中国成为一个热点话题。

美国的航班也有延误,但却几乎没有“罢乘”、“霸机”、冲击机场的事件。Data.gov上线以后,美国交通部开放了全美航班起飞、到达、延误的数据,有程序员立刻利用这些数据开发了一个航班延误时间的分析系统(Flyontime.us)。该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及机场等候时间。

这个系统上线之后,由于其简单、实用,获得了全美多个新闻报刊的报道和关注,成为很多人乘机、候机的行动指南。

大众创新和社会创新

大众创新,指以普通公民而不是以知识精英为主体的创新。

社会创新(Social Innovation),是指为了解决某个社会问题、满足某种社会需要、改善某部分人群的生存状况,民间力量自发产生的一种新的思想、行动和举措。社会创新也指政府在公共政策、社会治理方面的创新。

社会创新最著名的例子是孟加拉的乡村银行(Grameen Bank),它向贫穷的人发放不需要担保的小额贷款,以帮助穷人改善生活。其创建人Muhammad Yunus获得了2006年的诺贝尔和平奖。

以波士顿至纽约的航线为例(起飞:Boston,Logan International;到达:New York,Kennedy International),在系统的主页上,输入机场名称,点击之后,用户可以看到不同天气、不同日期、不同时段、不同航空公司、不同航班等各种条件下飞机是否准时以及平均延误时间的数据明细。

从以上分析可以看到,各种不同组合条件下的数据分析明细基本都有了。这些数据和分析结果,对具体一名消费者和整个社会的经济活动,会起到什么作用呢?

一是可以帮助消费者找到表现最佳、或者最符合自己需要的航班。如果没有这些信息,消费者在选择航空公司的时候,信息是不完全、不充分的,与航空公司构成一种典型的信息不对称关系。航班的历史数据是一种有效的参考和信号,公开这些信息,弥补了消费者的信息不对称。此外,消费者在对比分析大量历史数据的基础上,自己做出判断,即使结果不尽如人意,但也感觉公平。

Flyontime.us的界面

总体情况分析

按航空公司分析

分析[1]:2010年从波士顿至纽约的航线总共有6735次航班,其中62%准点或提前到达,14%有20分钟以内的延误,20%有20分钟以上的延误,还有4%的航班最终取消。

分析[2]:按航空公司排序,JetBlue公司的准点率最高,为64.4%;Pinnacle公司的最低,为15.6%。

各种不同天气情况下的延误情况分析

分析[3]:天气良好的情况下,多数航班会提前5分钟到达;下雪天,平均延误时间为7分钟,年度最糟情况为53分钟,并有7%的航班取消;雷雨天气,平均延误2分钟,最糟情况53分钟。查询的结果还向用户显示当天当地的天气情况。

按星期和每天的时间段分析

分析[4]:就一星期而言,星期六的准点率最高,为78%;星期一的准点率最低,为64%。就一天而言,每天早晨5点到6点起飞的航班准点率最高,为83%;晚上9点到10点的准点率最低,为53%。

按节假日分析

分析[5]:感恩节、圣诞节当天的飞机一般都会准点到达,但节日前后的延误情况是最严重的。圣诞节次日平均延误34分钟,最糟的情况是80分钟,还有41%的航班被取消。

按航班分析

分析[6]:全部航班的表现应有尽有。最准点的是航班Comair 6633,最不准点的是航班Delta 1807,平均延误26分钟。

二是最大程度降低了旅客等待时间的不确定性。法国有句谚语:让别人等待的人,他的错误会遭到众人的清算。20憎恶等待,是人之常情,因为等待意味着时间流失、经济损失,不确定性的等待还往往导致精神焦虑。单次航班的延误时间似乎是随机的、无规律的,但是,当数据累积到一定程度时,航班延误时间的长短就会在统计上呈现出一种秩序和稳定。航班延误分析系统把这种统计学上“秩序和稳定”传达给了旅客,帮助他们建立正确的期待,合理安排时间,避免焦虑。

三是有利于推动航空市场的良性竞争。航班延误分析系统按平均延误时间给相关航空公司排了“座次”。回到上面的例子,经营波士顿至纽约航线的公司共有5个。就是否准点而言,谁好谁差,几乎一目了然。此外,各次航班的表现也有明细。例如American Eagle航空公司的第4617航班,全年共有182班次,平均延误7分钟;相比之下,该公司的4614航班,全年也是182班次,但平均提前8分钟到达。这些数据,不仅是消费者的行动指南,也是各大航空公司的核心竞争指标。通过这种数据公开,无疑可以促进市场竞争,航班延迟必然逐渐下降到消费者能够接受的合理范围之内。

其实,为了缓解航班延误的问题,美国政府也想过同样的办法。早在Data.Gov之前,国家交通安全局就在其网页上(NSA.gov)提供过一个“航班等待时间计算器”,帮助旅客估计因航班延误而导致的等待时间。2009年政府开放原始数据之后,民间开发出来的这个免费工具明显比交通安全局提供的“计算器”功能更强大、界面更友好。很快,该局便关闭了这个“计算器”。

有评论说,开放数据是一石三鸟,不仅服务大众,刺激经济,还调动了大众创新,为政府节省了软件开发的开支。

Flyontime.us还能够查询各个机场安检通关的时间长短,这个数据,当然是机场服务质量的一个重要指标。但这部分的数据来源,并不是政府发布的数据,而是乘客自己提交的数据。候机的乘客可以通过推特(Twitter)或者智能手机向该系统提交其在某个机场通过安全检查的时间。这些数据,通过加总和平均,成为其他用户的参考。

当然,这又是一个大众通过网络的共同协作,改善管理、促进社会福利的例子。

有意思的是,伴随着Data.Gov的开放,美国的航班延误率正在呈下降趋势,由2008年的27%下降到2009年的20.79%,再到2010年的20.23%。当然,原因可能是多方面的,数据开放在其中的作用大小,还有待进一步研究。

联邦政府的Recalls.Gov手机界面

民间开发的Recalls TM手机界面(带有商品的照片和图像)

消费者的福音:商品召回手机查询系统

如何避免购买到具有安全隐患和质量问题的商品,无疑是所有消费者最关心的话题,这在美国也不例外。特别是婴幼儿的食品和用品,如果有质量问题,往往成为父母亲的梦魇。

Data.gov上线之后,各种因为质量问题而被召回的商品记录立即成为最受欢迎的数据之一。

联邦政府共有农业部、食品药品监督局、消费者委员会等6个部门涉及商品质量和产品召回的管理工作。早期,这6个部门在各自网页上公开其管辖范围之内的问题商品的召回记录。

2009年,为了方便用户查询,联邦政府内务部决定:在整合这些数据的基础上,开设一个专门的商品召回查询网站。在这个网站上,消费者可以对任何商品进行查询,获得其是否具有召回的记录,也可以对某一项商品进行跟踪,获得电子邮件的提示信息。

这个系统还可以在智能手机上使用。消费者在购物时,通过在随身携带的智能手机上键入产品的名称及型号,可以在购买时直接查看该商品是否具有质量问题和被召回的历史记录。如果消费者怀疑该商品存在问题或者是被召回产品的漏网之鱼,还可以立即在线举报。

但联邦政府开发的这个系统仅仅只能在Android(安卓)的手机上使用。

Data.gov开放数据之后,一款基于苹果手机的新应用RecallsTM很快就被开发出来,并对全社会免费开放使用。和联邦政府开发的系统相比,该系统的功能更强大、使用更方便、界面也更绚丽,受到了消费者的莫大欢迎。

可视化的经典:数据混搭器

数据混搭器(Datamasher.org)是阳光基金会举办首次公共数据程序员开放大赛(App for America)的金奖作品。它之所以在众多的参赛作品中拔得头筹,原因在于,它不仅仅是一个应用程序,还是一个平台,任何一个用户都可以在它上面选择需要整合对比的公共数据组,然后产生以地图为基础的数据可视化分析。

例如,一名用户以全美每个州为基准,整合了每百万人口发生犯罪案件的多少和各州居民拥有武器的比例两组数据,这两组数据分别来自联邦调查局和美国疾病控制中心(CDC)。下图表明,华盛顿居民的枪支拥有率为1.9%,远远低于全国平均水平,但其每百万人口的罪案数却为1414宗,居全国第一。又如密西西比州,其枪支拥有率为11.1%,居全国第二,但其每百万人口的罪案数却仅为291宗,在全国处于较低的水平。

犯罪案件的多少和居民枪支拥有率的可视化展示

这个可视化应用以直观的地图对比,想向读者证明:一个地区居民拥有枪支的多少,与该地区的治安情况没有必然的联系。

用户不仅可以在该平台上整合、分析Data.gov上开放的数据,还可以保存自己的设计和对比,并开放给平台的其他用户,和他人共享,接受他人的评价、意见和反馈。

截至2011年年底,该网站上已经拥有1570个不同的数据可视化应用。从一个地区空气质量与工厂数量多少的关系,到高中升学率与师资力量的关系,再到肥胖人员的数量与一个地区快餐店多少的关系,林林总总的对比和展示,有些给人直接的启示,有些发人思考,还有的令人忍俊不禁,但笑过之后又不禁感叹:社会大众蕴藏的智慧和创造力是无穷无尽的!

注释

01 英语原文为:“Every motivation that makes a man do something can be classified under‘survival’,‘social life’and‘entertainment’. As a result, progress is defined as reaching a higher category: not doing a thing merely for survival, but for social reasons, and then, even better, just for fun.”—The Hacker Ethic and the Spirit of the Information Age, Prologue, Linus Torvalds, 2001

02 英语原文为:“The open society is one in which men have learned to be to some extent critical of taboos, and to base decisions on the authority of their own intelligence.”—The Open Society and Its Enemies(1945), Vol. 1, Endnotes to the Chapters: Notes to the Introduction

03 英语原文为:“We're entering a new world in which data may be more important than software.”—Tim O'Reilly

04 英语原文为:“Who can afford to do professional work for nothing? What hobbyist can put 3-man years into programming, finding all bugs, documenting his product and distribute for free?”—An Open Letter to Hobbyists, Bill Gate, Feb 3rd, 1976

05 黑客(Hacker),其本意是指热衷、喜爱计算机编程、对程序设计有精深理解和高级技巧的人。

06 英语原文为:“Given enough eyeballs, all bugs are shallow.”—The Cathedral and the Bazaar, Eric Raymond

07 英文书名为Open Sources: Voices from the Open Source Revolution

08  Fallibility, Wise Men and Politics, New York Times, May 20, 2008

09  8 Principles of Open Government Data, http://www.opengovdata.org

10 英语原文为:“Information maintained by the Federal Government is a national asset.”—Transparency and Open Government, Memorandum for the Heads of Executive Departments and Agencies, White House, 2009

11 英语原文为:“Change will not come if we wait for some other person or some other time. We are the ones we've been waiting for. We are the change that we seek.”—Barack Obama, speech, Feb. 5, 2008

12 该法案全名为:Federal Funding Accountability and Transparency Act of 2006。

13  OMB Offers an Easy Way to Follow the Money, Elizabeth Williamson, The Washington Post. December 13, 2007

14 参见2007年11月奥巴马访问谷歌的实况录像:[email protected]: Barack Obama, YouTube。

15 英语原文为:“We are democratizing data, putting the power of information in the hands of the American people.”—Vivek Kundra, January 22, 2010

16 华盛顿特区是美国联邦政府、国会和最高法院的所在地,其地位相当于中国的北京,在英文中简称为“Washington D.C.”,这也是这个项目被简称为“DCStat”的原因。

17  President Obama Names Vivek Kundra Chief Information Officer, the White House, March 5, 2009

18 英语原文为:“A primary goal of Data.gov is to improve access to Federal data and expand creative use of those data beyond the walls of government by encouraging innovative ideas(e.g., web applications). Data.gov strives to make government more transparent and is committed to creating an unprecedented level of openness in Government. The openness derived from Data.gov will strengthen our Nation's democracy and promote efficiency and effectiveness in Government.”参见Data.Gov网页。

19 英语原文为:“Data are not consumed by the ideas and innovations they spark, but are an endless fuel for creativity. A small bit of information, well found, can drive a giant leap of creativity. The power of a data set can be amplified by ingenuity through applications unimagined by the authors and distant from the original field.”—Harnessing the Power of Digital Data for Science and Society, Report of the Interagency Working Group on Digital Data to the Committee on Science of the National Science and Technology Council, Jan 2009

20 法语原文为:On compte les défautsde qui se fait attendre.