首页 » 大数据 » 大数据全文在线阅读

《大数据》第五章 帝国的法则

关灯直达底部

一个公众的政府,如果缺乏公众的信息,或者缺乏收集信息的方法和手段,那它只不过是一个短暂的序幕,拉开的将是一场闹剧或悲剧,也可能既是闹剧又是悲剧。知识将永远统治无知:人民如果想要当家做主、主导自己的命运,就必须用知识的力量来武装自己。01

——詹姆斯·麦迪逊,第4任美国总统,1822年

联邦政府这个庞大的数据帝国,是如何运作和管理的呢?

没有规矩,难成方圆。这又不得不谈到美国的立法工作。美国是个法制极其发达的国家,上个世纪以来,美国国会、政府先后通过了上百个大大小小的法规,分别对数据的收集、发布、使用和管理等关键环节都做出了具体的规定。

更重要的是,美国人民对于这些法规中不合理的地方,也没有等闲视之,而是不断地提起法律诉讼,最高法院再通过新的判例查缺补漏,推翻国会和政府制定的一些不合理规定。经过几十年的发展,联邦政府对于数据的收集、发布、使用和管理,已经形成了一个比较成熟的框架和体系。

收集法则:减负,为人民减负

当收集信息时,每一个机构都要告诉其收集对象以下信息:收集这份信息的目的、将来使用的方式、对其负担的估计,以及这次信息收集工作是志愿的、法定的或是有报酬的。最后,还要告诉他们:如果没有“信息收集许可号”,任何人都可以拒绝填报。

——《纸面工作精减法》第3506(B)(iii)款,1996年

1980年,为了规范、控制联邦政府的信息收集工作,美国国会通过了《纸面工作精减法》(Paperwork Reduction Act)。

该法规定,所有的联邦政府机构,必须在得到行政管理预算局(OMB)批准之后,才能向社会和公众收集数据和信息,国会并且决定,在行政管理预算局新设一个“信息和管制办公室”(OIRA),统管联邦政府的信息收集工作。该办公室还负责发布行业管制标准的职能,这些标准,其实也是数据。关于这个职能,本书将在下一章具体介绍。

任何一个部门,如果要向社会收集数据和信息,必须事先向OIRA办公室提出申请、填报83-I表格,并提前60天在《联邦公告》(Federal Register)上昭告社会,就收集信息的内容和方式听取其他部门和全社会的意见。

走完这个程序,证明了其收集内容的合理性、收集方式的科学性,才能得到OIRA办公室的批准:收到一个由该办公室统一编发的“信息收集许可号”。缺少这个号码,就没有合法性,任何机关都不能向公众收集信息;对没有标明许可号的信息收集表格,公民有权拒绝填报。

《纸面工作精减法》是规范指导美国联邦政府日常运作的一个重要法规,要理解它的精髓,首先要明白,政府的信息收集工作,需要公民和社会的配合,对公民和社会而言,这是一个负担。1980年国会设立该法的根本目的,就是为了控制这个社会负担、减少“信息扰民”。

本书第三章谈到,联邦政府的数据主要有3个主要来源:一是业务工作的数据,二是社情民意的数据,三是物理环境的数据。这三种数据,互有交叉,各种数据的收集方式,也各不相同。

这种划分方法,依据的是数据的性质和来源。

当我们知道联邦政府的信息收集工作对社会是一个负担的时候,可以换一个角度,从法律的角度来考察公民和社会向政府提交信息的义务,就这个角度而言,联邦政府要收集的信息可以划分为强制提交、选择提交和志愿提交3种。

联邦政府数据来源两种不同的划分方法

从数据收集方的角度按数据的性质划分,有交叉

按信息提交方的提交方式划分,无交叉

按提交方式的信息分类

强制提交的信息:公民和社会组织必须依法提交的信息,如企业和个人的纳税情况、工厂的排污量、车间的卫生指标、产品中各种化学物质的含量等等,提交这些信息,是法定的义务。

选择提交的信息:对于一些政府补贴或社会福利项目,公民和组织如果决定申请,就必须填报表格、提交信息,以证实其符合该项目的要求。否则,政府可以拒绝其申请。

志愿提交的信息:多指政府开展的一些基于社情民意的调查,如政府机关为征求公众意见开展的调查,参不参加调查、提不提交数据,完全取决于公民和组织的自愿。正因为公民有权拒绝,联邦政府常常为这些调查提供一些报酬和奖励,以鼓励社会的参与。

信息和管制办公室(OIRA)每年都要编制“年度信息收集预算”(Information Collection Budget),这个“预算”,并不是指联邦政府为了完成信息收集的任务,要花多少钱,或者要投入多少人力和时间,也不是指要收集信息的数量,而是去计算政府机构的信息收集计划会给全社会带来多大的负担(Information Collection Burden)。这个负担,以小时数来计算。也就是说,美国人民要完成政府规定的信息提交任务,需要投入多少时间。

其计算方法别具一格,有必要简单介绍。

例如,为了完成某项业务工作,某联邦政府机构确定了必须从社会收集某组信息,该收集工作一年需要进行两次,每次需要1000个单位或个人填报,完成一次填报需要一个人投入5个小时,这5个小时包括用于阅读说明、填报数据、检查提交的全部时间。那么,这份信息收集工作的社会负担将是:

根据这个计算方法,该部门将确定这项信息收集工作的年度负担为1万小时,再提交OIRA办公室审核。OIRA办公室如果确定其收集的内容和其他部门没有交叉,收集方法科学合理,将批准该机构1万小时的年度信息收集预算。

这也正是该法被命名为《纸面工作精减法》的原因:通过OIRA办公室把关,科学规划,避免重复收集,确保收集信息的方式简洁有效,尽量减少普通公民和社会组织的信息填报负担。

1995年,联邦政府信息收集负担为65亿小时。

65亿小时是个什么概念呢?

这相当于320万人一年的工作量。也就是说,除了填报表格,320万人什么也不做,需要一年才能完成联邦政府下达的信息收集任务。

为了应对越来越繁重的信息收集任务,美国国会曾先后于1995年、1996年对《纸面工作精减法》进行了修订。OIRA办公室也曾经制订过“减负计划”:从1996年开始,每年的信息“扰”民时间必须减少10%。

但OIRA办公室明显错误地估计了形势。

这时候的美国,已经不折不扣是一个信息社会,对信息的需求已非人力所能控制。OIRA办公室纵然有心减负、大力控制,也没能挡住各个部门年年递增的信息收集预算。

和1995年相比,1996年联邦政府的信息收集负担不降反升,达68亿小时,其后年年上升。根据OMB每年公布的信息收集预算报告,2009年,联邦政府的信息收集负担达到99亿小时,较10年前的72亿小时上升了37%。

当然,这也从另外一个方面证实了联邦政府所拥有的数据总量确实在大幅上升。

信息收集预算不断攀升的原因主要有两个。一是美国国会在不断制定新的法规,新的法规往往要求收集新的信息,各联邦部门“不得不从”,例如2009年的财政年度,仅仅因为国会2008年通过的新法规,联邦政府的信息收集预算就增加了5500万个小时;02二是因为一些选择性提交的数据有很大的波动性,例如,失业人数的增加,会导致申请社会福利人数的增加,从而导致全社会填报信息的负担增加。

1999—2009年联邦政府信息收集负担预算明细分析

说明:联邦政府财政部一个部的信息收集预算占全部预算的80%左右,这是因为,几乎全美每一个个人、家庭都需要报税、退税。财政部收集的信息不是最多,但涉及面却最广,所以给全社会造成的负担也最大。(数据来源:OIRA办公室《年度信息收集预算》)

年年喊减负,负担却年年上升。尽管责任不能全部归咎于政府,OIRA办公室的脸上也挂不住。2010年,OIRA又审时度势、隆重推出了五项减负措施:

1.尽量推行具有自动计算功能的网络填报方式(fillable fileable form);03

2.在确保安全的情况下,尽量使用电子签名,以减少信息传送、投递的时间;

3.降低信息收集的频度;

4.简化行政过程,避免信息项的重复收集;

5.减少小型企业的信息收集负担。

1999—2009年联邦政府信息收集负担的增长趋势

按理说,政府负有管理社会的责任,为完成“公务”,向社会收集信息,听起来天经地义。美国的联邦政府为什么要年年喊减负呢?

这是因为,当今的时代,已经不是“普天之下,莫非王土;率土之滨,莫非王臣”的时代。现代的政府,必须经人民授权产生,它的大政方针,必须符合民意。一个经授权产生的政府,凡事当然都要以授权人的利益为准,凡事都要经得起授权人的质询。

这也是为什么美国政府会把信息收集对社会造成的负担作为衡量信息收集工作重要标准的根本原因。

其实可以预料,OMB关于信息减负的理想难以实现。这是因为,在当前的社会,信息不仅越来越多,其重要性也不断上升,在人、财、物等各个管理要素之间,信息的枢纽作用越来越明显。有效的社会管理,无疑需要更多的信息。

虽然减负的目标不可实现,但OMB关于减负的目标和措施,却是一个经人民选举、授权产生的政府在面对人民时必须具备的姿态。

使用法则:隐私,文明社会的共识

隐私,是流淌在美国人血液里的一种价值观。04

——安娜·埃舒,美国众议院众议员,2002年

谈到美国的隐私权,我们就绕不开“阳光是最好的防腐剂”这句至理名言的作者:路易斯·布兰代斯大法官。

和奥巴马一样,布兰代斯是哈佛法学院毕业的博士。前文提到,奥巴马在哈佛就读期间,曾经担任过《哈佛法律评论》的主编。这本刊物,在美国法学界的知名度很高,正是布兰代斯1887年在哈佛任教期间创办的。

1890年,布兰代斯与他的同学沃伦(Samuel Warren)就在这本刊物上共同发表了美国隐私权的奠基之作:《隐私权》(Right to Privacy)。在这篇文章中,布兰代斯将“隐私权”定义为“不受别人干扰的权利”。他认为,这项权利是个人自由的起点,只有通过界定这项“人类最广泛、文明人最珍视”的权利,个人的“信仰、思想、情感和感受”才能得到保障。

路易斯·布兰代斯(1856-1941)

布兰代斯是美国历史上第一位担任最高法院大法官的犹太人,也是美国历史上知名度最高的大法官之一。其中的原因,在于他侠肝义胆、热心社会公益事业,在他近30年的律师生涯当中,常常为社会弱势群体代言,被称为“法律界的罗宾汉”、“人民的律师”。(图片来源:维基百科)

这种保障不仅仅意味着个人可以对抗他人对其自由的侵扰,也意味着个人享有不受新闻媒体、政府权力干扰和侵犯的自由。

隐私权的提出虽然仅仅只有100多年,但美国人重视“隐私权”的传统却可以追溯到17世纪的英国。

1647年,英国的法典就规定:

“一个人的房子,对他和他的家人来说,就是他的城堡。”

18世纪中期,英国首相威廉·皮特曾在国会的演讲中说:

“穷人的房子,可能已经破败、摇摇晃晃,风在其中穿梭。但风可以进、雨可以进,英格兰的国王却不能进,他的权力止于这间破房子的门槛。”05

美国最早意义上的隐私权,也正是集中在以住宅为代表的物理空间之上的。隐私权意味着一个人可以在自己的城堡中不受监督、不受干涉地发展自己的个性,决定自己的生活方式。

但随着技术的发展,美国社会对于隐私权的保护也在发生深刻的变化,其重心不断转移,经历了从住宅到人、再到信息的转变。

布兰代斯也是最早预见到技术的发展将会不断侵蚀人类隐私的先觉者。

布兰代斯诉讼方法(Brandeis Brief)

布兰代斯的成就很多,他也是美国历史上第一位在法律辩护中大量使用数据的律师。

1908年,布兰代斯为俄勒冈州规定女性每天工作时间不得超过10小时的法案作辩护。他在法庭上出示的辩护书,与众不同、轰动一时:仅仅用了2页的篇幅作法律分析,却用了100多页的篇幅援引各种统计数据,以证明劳动时间过长对女性健康所产生的危害。他的辩护,最后获得了最高法院9名大法官的一致支持。

这种用数据和事实而不是用法律先例来说明立法必要性和合理性的做法,开创了一种新的法律辩护形式,这种形式被称为“布兰代斯诉讼方法”,其后被法律界迅速采纳。后世的许多重大案例,如争取黑人儿童平等择校权的布朗诉教育委员会案,辩护律师即因为采用了“布兰代斯诉讼方法”,大量引用事实和数据,获得了胜利。

1876年,贝尔发明了电话,这项新的技术极大地方便了人们的交流、推动了社会的发展,但也给隐私权投下了阴影。加上照相机、摄像机等新技术的相继出现,隐私权开始面临很大的挑战:窃听与日俱增,偷拍频频发生,“狗仔队”的跟踪泛滥,警方的秘密监控手段也越来越广泛。布兰代斯等一批先觉者开始意识到,除了住宅,即使在公共场所,个人的隐私权也存在着被侵犯的危险。

1928年,美国发生了隐私权历史上著名的奥姆斯泰德诉美国政府一案。06

一位名叫奥姆斯泰德的普通公民涉嫌贩卖私酒,联邦调查局(FBI)的官员在没有获得“搜查证”的情况下通过对其住宅电话、办公电话的搭线监听,掌握了其犯罪证据。奥姆斯泰德因此被定罪。但奥姆斯泰德认为:联邦政府的窃听行为违反了宪法第四修正案对个人隐私权的保护,FBI利用这种手段获得的证据不正当,应当予以撤销,他于是上诉到最高法院。

布兰代斯当时担任美国最高法院的大法官。他支持奥姆斯泰德的上诉。但最高法院的9名大法官最后以5:4的比例驳回了奥姆斯泰德的上诉。5名大法官认为,FBI的秘密窃听没有物理性侵入奥姆斯泰德的住宅,因此不构成对其隐私权的侵犯。

这场官司之所以著名,是因为布兰代斯大法官作为合审团的少数派,发表了他著名的“异见”(Dissenting Opinion):

“由于新技术的产生和发展,对隐私权的侵犯已经不需要物理的、强制性的侵入,这种新的侵犯正在以微妙的方式广泛地衍生。这种侵犯即使是国家行为,如果没有合法的审批,也应当被视为违宪。”

奥姆斯泰德虽然最后败诉,但布兰代斯的“异见”却引起了广泛的讨论,对美国社会产生了深远的影响。

1967年,又发生了轰动一时的凯兹诉美国政府一案。07这一年,美国最高法院终于以7:1的绝对多数完全采纳了布兰代斯的意见,推翻了对奥姆斯泰德一案的判决。

和奥姆斯泰德一案类似,FBI故伎重施,在公用电话亭搭线窃听了当事人凯兹的谈话,获取了其参与组织赌博活动的关键证据,凯兹随后被定罪。

凯兹以相同的理由上诉到最高法院,最高法院最后宣布:FBI经窃听获得的证据侵犯了公民隐私权,为无效证据,予以撤销。最高法院还在判决中明确:人类的隐私权,不仅仅限于住宅,无论何时何地,即使在公共场所,个人也享有隐私权,对其谈话、通讯的侵犯,就是对其个人隐私领域的侵犯。

凯兹案成了美国隐私权保护从以“住宅”为重心到以“人”为重心的分水岭。

近几十年以来,由于信息社会的兴起,美国社会对隐私权保护的重心再一次发生了重大的转移。促成这种变化的原因在于政府和商业组织都收集了很多关于个人身份的信息。当个人身份数据(Personal Identity Information)广泛存在于政府、银行、医院、学校、酒店、商场、公司等众多组织当中的时候,每个人的活动其实无时无刻不在被不同组织的数据库“记录”和“监视”,这些数据如果被别有用心地利用和整合,个人的隐私和尊严将不可避免地受到侵害。

为了应对信息时代的这种冲击,美国对于隐私权的保护,又逐渐从以“人”为重心调整到以“数据”为重心的思路上。

江山代有才人出。这时候,哥伦比亚大学的教授阿伦·韦斯廷(Alan Westin)成了这个新领域的理论先驱和领跑者,他将信息社会的隐私权定义为:

“个人控制、编辑、管理和删除关于他们自己的信息,并决定何时何地、以何种方式公开这种信息的权利”。

1974年,尼克松的水门丑闻全面爆发,行政权力对个人隐私的恶劣入侵,引起了全美朝野上下的反思。此后,美国社会对政府的信任降到了一个历史低点,增加政府的透明度、保护公民的隐私成了全民的共识。在这种情况下,1974年12月,美国国会通过了已经讨论很久的《隐私法》(Privacy Act of 1974)。

美国隐私权保护重心的变迁

韦斯廷教授对数据隐私的研究,为1974年的《隐私法》确定了基本的原则。

阿伦·韦斯廷教授

其著作在西方世界曾经引发跨国性的数据隐私保护运动。代表作有《隐私和自由》(1967年)、《自由社会中的数据银行》(1972年)。

1974年的《隐私法》是一部真正的信息时代的隐私法。它的保护主体就是存储在政府机关内部的“个人信息记录”,如个人的教育经历、工作履历、经济活动、犯罪历史等等记录,它通篇规定的都是美国政府应该如何使用、保护公民的个人信息。

该法规定:行政机关收集保存的公民个人信息,只能用于信息收集时的既定目的;未经本人许可,不得用于其他目的;个人有权知道其信息的使用情况,还可以查询、核对、修改自己被行政机关收集记录的个人信息。

针对如何管理与个人身份隐私相关的数据,美国国会后来还通过了1986年的《电子交流隐私法》(ECPA)、1988年的《计算机查对和隐私保护法》(CMPPA)、2002年的《联邦信息安全管理法》(FISMA)等法律。除了国家层面的立法,美国联邦政府又制定了多个部门规章和实施细则,其中最重要的是1985年行政管理预算局(OMB)颁布并多次修订的《联邦政府信息资源管理政策》,也简称为A-130号通报(OMB Circular A-130)。

该通报明确规定了联邦政府信息管理工作中的“隐私至上原则”:

水门事件(1974年)

在1972年的总统大选中,尼克松竞选团队的5名工作人员闯入位于华盛顿水门大厦的民主党全国委员会办公室,在安装窃听器并偷拍有关文件时,当场被捕。

尼克松起初推脱说并不知情,并利用总统特权,对调查行为百般阻挠。随着调查的深入,越来越多的白宫官员身陷其中。证据表明,尼克松对此负有直接责任,他长期利用行政资源来收集政治对手的情报。

1974年8月,为了避免弹劾下台,尼克松主动提出辞职,成为美国历史上第一位辞职的总统。

水门事件对1974年《隐私法》和1976年《阳光政府法》的出台都起了直接的推动作用。此后,每当国家领导人发生政治丑闻,便常被新闻界冠之以“门”的名称,如本书后续将介绍的“伊朗门”。

“当联邦政府的信息活动涉及个人信息时,个人隐私权必须切实得到保护。”08

“对于个人身份的数据,无论是静态存储,还是动态传输,都必须加密。”

这些信息时代隐私原则的确定,条条款款的背后都有争议,本书将在第七章讲述其中的故事。

当然,并非所有与个人相关的数据都是隐私。对于何种数据才算隐私,要分得一清二楚并不容易,美国的大法官们也没少为这件事纠结,其中最著名的是1972年的联邦政府诉米勒案09。通过这场官司,最高法院规定,个人的消费记录不算隐私。

1972年12月,佐治亚州的警察捣毁了一个贩卖、制造私酒的地下工厂,根据掌握的线索,警方怀疑当地的居民米勒是该案的幕后主谋。联邦政府的调查机关给银行发出了传票,要求调阅米勒的银行账户,最后从他账户的交易记录中,掌握了其购买蒸馏设备、运输工具和其他酿酒原材料的一系列证据,米勒因此被定罪。

米勒却拒不认罪,上诉到法院,其律师认为,公民的账户记录属宪法第四修正案保护的隐私范围,必须具有法院下达的搜查令才能获取,政府调查机构的传票没有法定效力,其获得的证据应当撤销。

联邦第五上诉法院支持了米勒的上诉,认为联邦政府违反了程序,侵害了米勒的隐私权。

但联邦政府不服,该案最后上诉到最高法院。

1976年,最高法院宣判,银行的交易记录不属于个人隐私的范围,因为个人的消费记录必须在各个银行、商家之间流动、交换,就像电话号码一样,无法保密,所以不能算是隐私。

米勒最终还是被依法定罪。

发布法则:免费,人民已经交税

所有机构因发布信息而收取的费用不能超过其发布信息的成本,不能将收集、处理原始信息的费用包括在内。10

——美国联邦政府OMB A-130号通报,1985年

美国政府的信息收集工作以减少社会的负担为目标,其信息使用又以隐私保护为原则,这些规定都和普通大众息息相关,但还有一条几乎和每一个普通公民的经济利益都直接挂钩的法规,你可能没有想到,这条规定,却源于听起来毫不相干的美国《版权法》:

“美国政府的任何工作和作品,都不适用版权保护,但美国政府可以接受并拥有通过转让、赠予或其他方式获得的版权。”11

这是1976年美国制定的《版权法》中的第105条。

这短短的一句话一锤定音:对于联邦政府的工作和作品,无论是文字、图像、软件,还是信息和数据,只要是美国联邦政府工作人员为了完成本职工作而取得的成果,都不能申请版权。

当然,美国政府可以接受转让的版权。例如,联邦政府雇用某公司开发一个软件,根据合同,该公司可能拥有该软件的版权,但如果该公司将版权转让给政府,政府则拥有了该软件的版权。此外,美国政府对它所有的工作和作品可以拥有海外的版权。

例如,摄影作品是一种创作,明确受到《版权法》的保护,但只要是美国联邦政府工作人员为完成本职工作而拍摄的照片,一律没有版权。

有无版权的根本在于收不收费。既然没有版权,政府发布的数据和信息,在法理上就没有收费的理由和根据,只能全民共享、免费发布。12

“免费”背后的逻辑其实也很清楚:政府的运行是以公民缴纳的税收为基础的,就好像我们雇请别人来为我们工作,既然已经支付了工资,就不必为其中的某一项服务或工作成果,再付一次钱。

对于如何发布数据,上文提到的A-130号通报(OMB Circular A-130)有具体的规定:任何联邦政府部门收集的数据,必须无偿与其他部门共享,如无法律明禁,还必须向全社会发布。对外发布信息,可以收取信息使用方一定的费用,但这个费用,只能用来弥补由于发布信息这个环节产生的成本,而不能包括数据收集和数据处理等其他环节的成本。

这种收费模式,被称为按边际成本的收费。边际成本,是微观经济学中的一个重要概念。

就政府的信息发布而言,边际成本是指多一个人看到这份信息政府需要投入的成本。例如,如果以CD碟的形式发布信息,多制作一张CD的钱,就是边际成本。如果通过印刷品发布信息,多印一本资料的开支,就是它的边际成本。

互联网产生之后,最方便的信息发布方式当然是政府网站,任何人都可以登陆政府的网站浏览信息和数据,1个人看和100个人看,对政府而言,几乎没有任何区别,那边际成本就将下降到几乎为“零”。

边际成本(Marginal Cost)

边际成本是指在一个特定的产量水平上,增加一个单位产量所需要增加的成本。例如对电脑制造商而言,多制造一台电脑需要投入的人工和原材料。

由于生产的规模效应,随着产量的增加,边际成本可能不断下降。例如,生产第一台电脑的成本可能很高,但生产第100台时,其成本可能就低很多,生产第10000台的时候,其成本可能大幅下降。

边际成本的不断下降正是企业利润的重要来源之一。

和边际成本相对应的经济学概念是“固定成本”。

既然互联网上发布信息的边际成本几乎为零,按照OMB A-130通报的规定,政府就不能收费;对公民而言,就意味着事实上的免费。

2008年,剑桥大学的经济学家波洛克(Rufus Pollock)曾对政府部门发布信息的收费方式做过系统的研究,他总结了3种可能的收费模式。13

波洛克指出,欧洲很多国家还在采用第一、第二种方式,政府利用其发布的信息收取费用,以弥补行政经费的不足。这种做法,看起来为政府开源创收了,但由于其对信息的封闭和垄断,对整个社会的经济发展其实弊大于利。而美国政府采用的第三种方式,由于其开放性,将促进全社会的经济增长,尽管这种增长难以量化,但其效果却非常明显。

政府发布信息的3种收费模式

一是利润最大化模式(Profit-maximizing),指的是政府借助自己独家的信息垄断优势,向信息需求方收取市场化的价格。

二是平均成本模式(Average-cost or Cost-recovery):政府收取一定的费用,这部分费用直接用来支付政府从信息收集到信息发布的所有开支。

三是边际成本或免费模式(Marginal-cost or Zero-cost),指的是只收取信息发布环节所产生的费用,也就是按信息发布的边际成本收取费用。

其中,最为经典的例子是美国海洋和大气管理局(NCAA)发布的天气数据。该局不仅在互联网上为公众免费提供实时的天气预报数据,还提供非常友好的批量数据下载功能。

在世界各国的经济生活中,有不少行业,如农业、交通业、建筑业、保险业、旅游业,无一例外都和天气的变化息息相关。美国商务部曾经做过一个专项分析,最后得出结论,全国有三分之一的GDP产值都和天气情况紧密挂钩。2008年,国家海洋和大气管理局的首席经济学家韦伊尔(Rodney Weiher)估算,仅全国的发电厂,因为得益于该局发布的免费数据,从而可以预测下一天、下一周的发电量、优化资源配置,每年节省的经费达1.66亿美元。14

相比之下,英国天气预报数据的管理模式,是公私合营。政府和私营领域的公司合作,政府一方提供原始数据,私营公司则提供数据加工和市场营销,两者通过成立新的实体公司15实行利益分成。

英美两国这种不同的模式,曾经引起过广泛的研究和关注,经济学家普遍认为,虽然难以通过定量研究准确地测量两种模式的效果,但可以肯定的是,免费发布的天气数据是经济发展的巨大助力。2001年,普华永道对此做过专门的调查,它的研究结果是:受益于免费的数据发布模式,2000年美国天气风险管理行业(Weather Risk Management Industry)的产值是整个欧洲的近60倍、整个亚洲的146倍。16差距如此巨大,表明了其原因不在“枝节”,而在“根本”。

2000年不同地区天气风险行业大小的对比

说明:三个圆形的面积分别表示该地区的天气风险行业大小。

当然,美国这种基于边际成本的免费模式,也并不是每个人都喜欢,事实上,实施起来也有阻力。仅天气数据而言,就有反对的声音。2005年,参议员桑托勒姆(Rick Santorum)提出了《国家天气服务职责法案》(The National Weather Service Duties Act of 2005),该法案主张,除了恶劣天气的预警之外,国家气象部门应该减少免费发布数据的数量,因为这限制了商业竞争。桑托勒姆是2012年共和党党内的总统候选人,他的法案,代表了相当一部分议员的看法,当然,也代表了天气预报产业资本家的利益。但发布信息的边际成本的免费模式已经深入人心,这个法案没赶上全体投票,就在委员会阶段胎死腹中了。

如前文所述,在美国,信息的发布和公开是两个很不一样的概念,发布是政府面向全社会的,公开是点对点、仅仅面对某一特定公民或组织的(具体区别请参见第一章第3节)。但发布信息的边际成本的原则也同样适用于根据《信息自由法》公开的信息和数据。也就是说,当公民根据《信息自由法》提请信息公开时,联邦政府只能收取因为该次查询以及公开这则信息所产生的边际费用,而不能收取政府为了收集、管理这份信息所产生的全部成本和费用。

管理法则:质量,互联网时代的根本

数据能满足其既定的用途,它才有质量。如果不能满足既定的目标和用途,就谈不上质量。换句话说,数据的质量不仅取决于它本身,还取决于它的用途。17

——杰克·奥尔森,数据库专家,2003年

数据质量的问题,是一个涉及数据收集、使用、发布等所有过程的问题。它的重要性,当然毋庸置疑。

虽然质量的问题贯穿整个数据管理工作的始终,但问题的爆发,常常发生在数据发布的阶段。

自从美国政府成立的第一天起,联邦政府就开始发布数据,但在没有互联网的时代,数据和信息的传播渠道、读者和受众,都相当有限。随着互联网的出现,政府开始在网上发布信息和数据,其受众骤然剧增,传播时间也大大缩短。

这对联邦政府而言,是一个很大的挑战。因为数据一经政府发布,往往被视为权威,对社会的各个领域都可能产生重大的影响。

在互联网时代,任何一份通过网络发布的信息,面对的都不是一个特定群体,而是全体国民。“足够多的眼睛,将使所有的错误都无所遁形。”如果政府所发布数据的质量不可靠,将受到频繁的、大范围的质疑,特别是一些可能会影响到公共政策和行业管制标准的数据,将引起巨大的争议。所以,联邦政府在互联网上发布数据,必须慎之又慎、保证质量。

为了保证数据发布的质量,OMB曾经制定过3个指导原则:

一是质量要有标准,联邦政府各部门必须制定衡量数据质量的统一标准,这个标准包括3个方面:

客观性:指发布的数据是否准确、客观、可靠;

实用性:是否对社会有用;

完整性:是否能够保证数据在收集、整理过程当中不受到非法的接触和修改。

二是质量管理要有流程。政府各部门必须针对数据质量,完善信息管理的流程,防止低质量的数据出现。

三是要有质量救助机制。政府各部门必须建立一个行政机制来应对社会、公众对于数据质量的质疑和挑战;如果政府发布的数据质量确实存在问题,必须有一个相应的纠错机制来补救。

乍听起来,这3个指导原则都简单、直接,但落实起来,却困难重重。

数据的完整性比较容易界定,但是何为“实用”、“准确、客观、可靠”,就仁者见仁、智者见智,很难有一个统一的标准。在经过几十年的纷争和论证之后,OMB认为:

联邦政府发布的数据,其获得的方式、产生的方法必须是透明的,也就是要向社会公布你的数据收集方法,而且别人通过相同的方法,应该能够产生、复制相同的数据。

这就要求政府要在发布数据的同时,必须发布一系列的文档,说明数据的来源、产生的方法,以及用户复制过程当中可能出现的问题和错误。

另一个争议的热点在于,谁对数据质量有最终的裁判权?如果所发布数据的质量不过关,联邦政府的纠错机制到底该如何运行?如果政府和社会对某项数据的质量有争议,最终分歧不能统一,是否可以提起法律诉讼?

为了明确地回答这些问题,2001年,美国国会甚至通过了《数据质量法》(Data Quality Act)。但这个法律,还是没有很好地解决问题,它引起了更多的纷争,联邦政府甚至因此多次成为被告,与个人、企业对簿公堂。欲知其中的曲折和详情,请看下章分解。

注释

01 英语原文为:“A popular government without popular information or the means of acquiring it is but a prologue to a farce or a tragedy, or perhaps both. Knowledge will forever govern ignorance: And a people who mean to be their own Governors, must arm themselves with the power which knowledge gives.”—Letter from James Madison to W.T. Barry(August 4, 1822)

02 Information Collection Budget 2010, Office of Information and Regulatory Affairs, P.5.

03 这是美国国家税务局(Internal Revenue Service)率先推出的一种在线报税系统,该系统直接与后台数据库相连,能指导提示用户填入信息,并能自动计算用户需要缴纳的税收,大大减少了用户填报税表的时间。

04 英语原文为:“Privacy is a value that runs through the veins of the American people.”—Anna G. Eshoo, The Honorable Anna G. Eshoo, personal interview, 10 April 2002

05 英语原文为:“The poorest man may in his cottage bid defiance to all the forces of the Crown. It may be frail, its roof may shake; the wind may blow through it; the storm may enter, the rain may enter—but the King of England cannot enter; all his force dares not cross the threshold of the ruined tenement.”—William Pitt

06  Olmstead v. United States, 277 U.S. 438(1928)

07  Katz v. United States, 389 U.S. 347(1967)

08 该法规全文可见于美国白宫网站:http://www.whitehouse.gov/omb/circulars_a130#7,(2011-10-30)。

09  United States v. Miller, 425 U. S. 435(1976)

10 英语原文为:“Agencies set user charges for information dissemination products at a level sufficient to recover the cost of dissemination but no higher. They must exclude from calculation of the charges costs associated with original collection and processing of the information.”—Circular No. A-130

11 英语原文为:英语原文为:“Copyright protection under this title is not available for any work of the United States Government, but the United States Government is not precluded from receiving and holding copyrights transferred to it by assignment, bequest, or otherwise.”—Copyright Act of 1976

12 在政府收集的全部信息和数据当中,只有一个例外,这就是1968年通过的《标准参考数据法案》(Standard Reference Data Act)。标准参考数据,指的是某种物质的可以测量的物理和化学属性,这种属性可以用定量的数据表达出来。为物质属性建立标准化的数据指标,是推进科学研究的重要手段。根据该法案,美国商务部可以对“标准参考数据”申请版权,并可以出售,出售的价格可以包括信息收集、编辑、评估、发布以及行政管理的费用和成本。

13 The Economics of Public Sector Information. University of Cambridge, Rufus Pollock, November 2008, Available at http://www.rufuspollock.org/economics/papers/economics_of_psi.pdf.

14 Assessing the Economic & Social Benefits of NOAA Data, NAS/OECD Conference, Paris. Rodney Weiher. February 2008, at 17-18. Available at http://www.oecd.org/dataoecd/12/31/40066192.pdf.

15 该公司名称为:Weather Exchange Ltd.

16  PricewaterhouseCoopers(2001)The weather risk management industry: survey findings for November 1997 to March 2001. Prepared for the Weather Risk Management Association, June 2001.

17 英语原文为:“Data has quality if it satisfies the requirements of its intended use. It lacks quality to the extent that it does not satisfy the requirement. In other words, data quality depends as much on the intended use as it does on the data itself.”—Data quality: the accuracy dimension, Jack E. Olson, 2003