首页 » 智能数据:如何挖掘高价值数据 » 智能数据:如何挖掘高价值数据全文在线阅读

《智能数据:如何挖掘高价值数据》第一部分 从大数据向智能数据转变

关灯直达底部

第1章 深陷数据过载的愁云惨雾

“它无所不在,它无所不知,它的名字是大数据。”

——呆伯特,2012年7月

流感预测器也闹“流感”

2008年是大数据发展的重要一年,尽管当时几乎还没有人提出大数据分析这一概念。就职于在当时仍备受推崇的、雄心勃勃的搜索引擎供应商谷歌的一小撮数据科学家在《自然》杂志上发布了一种大数据应用的方法,即利用大数据(的检测功能)令地球上的人类更加健康(少生病)。科学家们将这种应用命名为GFT:谷歌流感潮(Google Flu Trends)。科学家们宣称,在不与医生沟通的情况下,谷歌可以预言美国境内的流感疫情暴发和地理传播路径。科学家们的预测速度比当时的监测部门美国疾病控制与预防中心(CDC)更快、更准确。

几十年来,为了实现对流感疫情的监测,CDC搜集相关医疗诊断报告后,能够据此推测出全国居民的健康状况,推测结果公布时间较现实情况有一周左右的延迟。基于这种推测结果,CDC则可采取相关的公共卫生控制措施,例如开展大规模的疫苗接种。谷歌的科学家们基于他们的数据库,找寻到了一种预测居民健康状况的更容易的方法:他们统计居民在搜索引擎中搜索例如“流感有哪些症状”或者“附近有哪些药房”等词条的频率,标记搜索人所在的地点,并将这些统计数据与以往的流感疫情情况比对修正。在2008年,聚合并定位数以百万计的流感相关的搜索信息仅需不到一夜的时间。此外这种研究也证实了与专家发放调查问卷询问的方式(在调查流感疫情时,专家指的就是医生)相比,基于搜索请求统计的分析方法在一定区域内可以得出更微观精细的预测结果。

“谷歌流感潮”是大数据分析大众媒介影响的一个突破。不仅仅是谷歌公司的员工爱引用“谷歌流感潮”这个案例去促使人们关注谷歌公司的社会价值,关注信息技术仿射问题的记者也终于可以捕捉到一个在智能数据应用方面确凿的、普惠的成功案例。Trendtagen趋势大会的主讲嘉宾操着惯用的“这仅仅是一个开始”的口吻,认为“谷歌流感潮”这个应用实例是基于实证的医学研究革命的开始。分析与商业智能软件公司的销售人员都表现得仿佛他们的公司也参与了编写GFT算法一样,他们是想给人一种感觉,就是他们公司的产品在商业领域能够创造奇迹,就如同谷歌流感潮在公共健康领域创造的奇迹一样。人们也不再质疑在数据驱动下实现的进步。大数据分析领域的三个重要原则,通过谷歌流感潮这一应用案例被大众知晓。

1.我们拥有的数据量,远比我们想象的多。我们必须寻找新的方法,更有效地使用数据。

2.通过这些数据,我们可以观察人们的行为,并识别发展趋势,这可以为我们(实时)提供一个更准确的现实图景,其准确程度优于我们之前任何一次通过调查获取认识的方式,因此,我们拥有了更好的决策基础。

3.我们不再需要探究原因,统计关系会告诉我们,我们需要了解什么。《连线》(WIRED)杂志前主编克里斯·安德森(Chris Anderson)在他的文章《理论的终结》中就提到了这一点。在一个由数据丈量的世界中,我们不再需要理论模型,反正这些理论模型也只能部分为我们阐释世界。如果我们拥有丰富的数据基础,数据自会为自己证言。

2013年对大数据来说是一个好年景。有人会说,对大数据的发展来说,2013年比2008年还重要,这个就要看我们选取哪些比较指标了——可以是全世界积累的数据量、人们在谷歌上对“大数据”词条的搜索量、跟大数据有关的IT项目投入,也可以是呆伯特漫画里提到大数据词条的次数(2012年第一次提到)。企业咨询顾问、趋势观察员、软件供应商把大数据字样印在彩旗上,画在表格里,在每次PPT(演示文稿)演讲中都会提到。2013年,几乎在德国所有的行业会谈、座谈会和企业战略会中都会提到大数据概念。高德纳咨询公司的“3V”定义(体量、速度、多样化)变成了聚会小圈子里的高雅谈资,不管这个定义到底对他们有没有实际用处,也不论他们到底有多深的IT知识储备,参加聚会的人都重复不停地谈论这一定义。

简而言之,大数据这个专业术语成为数字化的标签,大数据之“伟大”如同这个概念本身所承载的数据量那样“海量”,也如同这个概念所承诺的那样宏大。当时,整个世界无可救药地中了大数据的“毒”。

对“谷歌流感潮”项目来说,2013年就没那么幸运了。2月,在《自然》杂志的新闻门户网站上刊登了一篇文章,文章指出,一度宣称能使世界变得更美好的大数据应用领域的典型案例“谷歌流感潮”预测结果出现误报,对一些流感疫情的发生率估计过高,另一方面又认为某些疫情根本不会发生。2009年1月的猪流感事件就属于后一种情况(实际发生,但GFT没预测出来)。

现在回想起来,“谷歌流感潮”的发展史也可以这样写,谷歌是那个时代在大数据应用领域第一个“吃螃蟹”的人,领先于同业。来自山景城(谷歌总部所在地)的数据工程师率先对外宣称他们可以预测流感趋势。但同时,他们也是第一批令公众失望的人。哈佛大学的一份学术研究报告认为“谷歌流感潮”事件是在对大数据分析整体进行炒作。这份报告中最重要的词汇是“Hybris”,这个词源于古希腊语,在德语中是“Selbstüberschätzung”,译为“傲慢”,即指“大数据傲慢”。2014年4月,《经济学人》杂志刊登了《对大数据的抨击》一文。《纽约时报》在大篇幅的分析文章中提出了“8个(不对,是9个!)大数据存在的问题”。剑桥大学公共风险认识学教授戴维·施皮格哈尔特(David Spiegelhalter)表述得更加直白,他认为以他的经验来看,大数据所承诺的种种,毫无疑问纯属胡说八道。

技术成熟度曲线(Hype-Cycling)

信息技术总是“说大话”,承诺很多事情,就好像这些事情在短时间内都会实现一样。这种现象由来已久,是老生常谈,老得就跟第一台计算机一样。这种现象强烈地影响了IT产业从业人员的心态,也逐渐影响了美国IT行业的特质。所有新科技好像就没有不重要的,研发者和销售人员都觉得是颠覆性的创新研发。这种情况有时令我们也很抓狂,事情总是这样,肯定是不行的。

信息技术总是“说大话”,承诺很多事情,就好像这些事情在短时间内都会实现一样。这种现象由来已久,是老生常谈,老得就跟第一台计算机一样。

鼓吹信息技术进步的言论是对一种理念坚信不疑的反映,即从长远看,创新技术肯定会得到应用,在一定时期之后,个人、社会组织及企业事实上也会消费创新技术,届时,那些从一开始就对技术创新抱有(过于)积极的态度的主体就会受益。早在20年前(第一个浏览器刚刚使普通人浏览网页成为可能),软件分析师杰姬·芬恩(Jackie Fenn)就提出了一个了不起的、结论性的分析框架,即高德纳公司的技术成熟度曲线分析。

许多本书的读者对这个曲线并不陌生。用物理学家的话描述这个曲线就是,具有指数特性特征的一条光滑曲线在经历了一个飞跃式上涨的波峰之后,逐步接近一个有走高趋势的平衡位置。如果是在经济领域,这条曲线表示,从指数上看,经过市场上的大肆渲染和宣传,新信息技术首先将经历不断提高的市场关注度。与此同时,对新IT产品的期望值也逐步攀升,但是这些尚不成熟的产品在1.0版时是不可能满足这些期望的。从某种程度上来说,这种期望后产生的失望是意料之中的。如果这些新产品生产企业掌握信息技术资源,很快他们就会推出优化后的2.0版本。

这些新版本可以实现人们意想不到的优化,比如可以治愈儿童疾病,或是增加了新功能。在这个阶段,对新产品的公众关注度明显降低,人们会更切合实际地去衡量这些新产品的市场潜力和技术局限性。(能够经受住市场检验的)成功的信息技术而后会达到“实际生产高峰期”阶段。此时,消费者知道自己想要什么,他们也非常清楚,这些新产品虽然已经不是最受追捧的了,但是这些新产品基本成熟的功能会使他们所在的机构或组织受益。

有很多新技术、新产品在跌入谷底之后,就不了了之了,市场低谷成了死亡之谷。

2011年,大数据作为类概念第一次出现在高德纳年度技术成熟度曲线报告中,在随后的2013年,大数据达到了曲线期望值的顶峰(达到“过高期望的峰值”阶段)。2014年,大数据以“坐过山车”的速度冲向市场关注度的低谷,预计2015年将继续加速向谷底俯冲。[1]这些只是预测层面的,不可回避的是,像施皮格哈尔特这类对大数据持批判态度的顶尖专家绝不会就此认定,大数据会朝着曲线上“实际生产高峰期”方向发展。这是因为,技术成熟度曲线毕竟不是统计分析方面的“再保险曲线图”(具有极高的预测准确度),不是所有时髦的新信息技术都会像技术成熟度曲线预测的那样,在经历了比较长的时间之后,会获得市场的认可。出于回顾验证预测结果的目的,高德纳的分析师们特意关注了一些已经上市的新产品的市场表现,结果发现有很多新技术、新产品在跌入谷底后,就不了了之了,市场低谷成了死亡之谷。

大数据这个概念的表述还是太模糊,涵盖了许多不同的产品和应用实例,在战略和实操决策层面都引起了一定程度的困惑。没有人能说清楚,在未来的5~10年,我们在企业经营中会用到哪些大数据分析方法。我们也不知道,到那时,我们使用哪些被大肆宣传的“秘密武器”时,会让我们不止一次地回想起“大数据”这个名词。此处有两个原因,一是大数据这个概念中的“大”不能用数量来衡量,二是对于多少数据量是容易或者不容易被运用的,判断过于主观。对有些企业来说,几Pb(10的15次方字节)的数据量就大得不可想象了,对另一些企业来说,处理Eb级的数据量(10的18次方字节)都很轻松。从我们在大数据的大部分商业应用领域的经验来看,企业能够处理的数据量的多寡,在决定某个企业能否达到“实际生产高峰期”阶段方面,是最不关键的因素。后续我们会对此进行更详细的分析,此时,我们大胆预测,在一段或长或短的时间之后,大数据这个概念在企业中将不仅仅作为一个高高在上的抽象化概念存在。

没有“大爆炸”的大数据

去年,我们从大企业和较大的中小企业的数据项目中获得了一些经验,在整合这些经验时,我们发现,在对大数据的认识和态度方面,存在如下自相矛盾的现象:

决策层越高,就越会涉及大数据这一概念,同时对大数据的期望值也越高。如果此时,首席执行官、董事或者战略决策部门还没有深入了解在他们的业务领域面临的最重要的数字化挑战是什么,他们对大数据的期望值还会更高。简而言之就是:

越是没有大数据应用经验,对大数据应用于企业管理的期望值就会越高,越会希望通过大数据的应用获得“多快好省”的收益。

这些期望主要是集中在能够借助大数据发掘出企业尚未涉足过的、全新的商业模式上。这种期望会在各种媒体报道的影响下越发强烈。比如媒体会报道:

1.早在客户意识到他们自己是多么迫切需要某样商品前,亚马逊就已经开始出售这些日常商品了。

2.由于有一定的大数据意识,在线影片租赁提供商网飞(Netflix)对那些观看连续剧成瘾的用户的欣赏偏好非常了解,网飞自己制作电视剧并且进行恰当的销售,例如凯文·史派西主演的《纸牌屋》。

3.未来汽车保险公司借助于全球定位系统数据,在“按里程付费模型”框架内核算出了保费收费标准,从而可以提供极具市场竞争力的优惠保险产品。

具体的表象往往还没有形成,例如这些基础性的经济领域技术创新在个别企业内是如何呈现的,等等。但是对大数据的基本态度已有定论,即数据为我们指明了方向。这不仅仅是效率的问题,还有实惠,因为现在信息技术的使用成本极低。这一点在去年与大数据相关的演讲中可以看出来。

另一方面,我们认识到,决策层级越低,大数据带来的失望情绪就越大,但是这种情绪多多少少都有所隐藏。这种情绪上的对立有多种原因。一方面,IT部门往往已经制定了工作方案,使企业可以更加有效地使用数据,但是方案在企业内部并未得到响应和贯彻。另一方面,如果公司将信息技术问题作为基础性工作来抓,那么原本相安无事的技术部门将陡然变为众矢之的,对于这一点,公司信息技术操作层面的负责人原则上是十分清楚的。随着信息技术的进步,IT部门意外地发现自己变成了影响公司决策的强有力的“刹车器”。在这方面,IT部门常用的话术是:“我们的系统不支持这个功能。”从IT部门的角度看,他们(这样说了以后)往往会是幸运的,不用再去为了公司的数字化快速发展做更多辛苦的努力,因为上层决策者往往会关注大数据应用所需的短期的、实际的、可预期的投入,有时对投入关注得越多,继续投入资源的热情便会有所减弱。当上层决策者们慢慢意识到,在他们的企业内必须进行哪些深入的改变,才可以借助数字化长效地发掘公司真正的市场潜力时,决策者们才会慢慢改变内心的抵触情绪,逐渐厘清认识。这里指的当然是,发掘自己公司的市场潜力,而不是别人的。

在一些大数据概念相对模糊的公司,常出现如下问题:决策层认识到了大数据分析是发掘新商业模式的一种可尝试的途径,同时他们对此寄予厚望。在项目中,他们很快意识到,数据确实是一种资源,可以在短期内,沿着企业本身的价值链——从组织生产、供应商管理、后勤保障、销售运营直到客户售后服务——去优化企业的核心业务。而后,人们不可避免地会将大数据的应用潜力与商业模式的持续优化联系起来。在排除其他并行的商业模式优化因素的情况下,人们尝试着去预估数据带来纯增量的潜力,结果是,在节省资源和增加销售额或者利润方面,大数据带来的纯贡献值是低于预期的。故而人们对没有带来惊喜的大数据就不再有兴趣了。

一次对企业影响深远的、致力于寻求数据驱动下优化解决方案的尝试,迅速将各种有经验的、熟悉企业文化的“反对者”引向了“雷区”:

1.必须开放数据库。通过利用运营数据,企业的业绩可能提升,但也可能降低。但遗憾的是,部门主管们对此持有很矛盾的心态,他们遵循的行为原则是,如果我从数据中获益则没问题,但是如果我没有获益,则无法接受。

2.数据技术的“恶魔”通常存在于细节中。小问题总是能演变成大问题,进而导致IT投入(尽管有IT行业的各种美好承诺)经常一路飙高,就如同柏林机场和易北河音乐厅在筹建时不断增加的预算一样。哪些处于职业上升期的领导会去冒这种风险?此外,让事情变得更困难的是,因为从商业角度出发数据应用似乎是值得期待的,故而数据库的经营管理人员的职权越来越大。在一个公司里,如果想投产一个创新性的客户数据应用,就需要对SQL(结构化查询语言)代码进行修改。谁能够估计出为此修改5000行SQL代码究竟有多复杂?肯定是实际操作修改的人。

3.内外部的数据保护者喜欢证明他们的存在权利。评估法律风险和突破法律方面的障碍不会给企业管理者带来任何乐趣,即便是在数据驱动下也一样。

4.应用分析工具所做出的预测并没有像软件销售商和咨询顾问宣称的那样令人信服。同时,在很多基于数据分析的优化项目中,在项目投产前往往有很好的预期,但是投产之后带来的短期实惠较少,项目投资收益少(沿着企业原本的价值链)导致公司资产收益率下降。

5.要更好地使用数据所面临的最大障碍不是机器设备,而是人员。更准确地说,是人力资源。智能的数据分析需要聪明的脑力。企业内部经常不具备这种人力资源或者这些人的工作量已经饱和,只能高薪从外部聘请,这时就会遇到普遍存在的困难,即控制预算。

总体而言,项目负责人和(或)财务预算人员如果想要推动项目进展,而项目本身需要应用大数据分析手段,那么他们最好还是马上做好与不断飞涨的预算做长期斗争的打算,预算飙升是很有可能发生的。短期内获得的分析结果是很有限的,可能远未达到预期,如果此时项目负责人想凭借这些分析结果将项目立项,这样的可能性微乎其微。企业首席执行官和董事们认为,企业战略规划的实施需要时间,企业在经历深刻的变革后,成为一个数据驱动下的市场竞争领先者——就像美国商业分析先驱托马斯·达文波特(Thomas Davenport)所说的“分析型竞争者”(Analytical Competitor)那样,至少需要5年的时间,也很有可能是10年。几乎没有首席执行官和董事们可以确定,到那时他们还是不是在担任现在的职务。与此同时,所有的有数字化发展战略的企业当然也都清楚,他们必须要做些什么。

处于矛盾纠结中的企业目前面临的这种情况,在国际象棋中被称为“Lavieren”,即以守为攻战术。

以守为攻战术

在棋牌类游戏里有一种情况,在这种情况下采用“Lavieren”战术特别有用。参与游戏的人中,没人有稳操胜券的取胜之道。大家都采用与之周旋的招数,并给自己留出尽可能多的转圜空间。在这种情况下,“Lavieren”战术就有可能派上用场:如果对手犯了错误,进而失去了空间优势,那么就为对方提供了进攻“王”的机会。反过来说就是,防守是最好的进攻。自己并不主动做什么,而是以守为攻,等待并期待对手犯错,进而为自己赢得一个机遇。

完全没接触过象棋的人,可能不能理解我们在说什么,不理解什么是企业所谓的数字化战略,那么请回忆一下那些无关紧要的中场传球。一个在本质上被动的、以守为攻的行为,会被机会主义行为或者会议上大肆宣扬大数据应用的行为所掩盖。

以守为攻型企业典型的行为模式有:

☆为特定用途购进多种分析与可视化工具,虽然从根本上来说这种行为是好的,但是这种行为不总是会起到好效果,结果导致大家对IT的印象变得更加支离破碎,并且产生了“工具过载”现象。伴随着“工具过载”而来的,是人们越来越高涨的失望情绪:“我们没有办法再控制我们的系统了,反倒淹没在了一片数据汪洋之中。”或者像一个在一家大型保险公司工作的运营主管所描述的那样:我们现在需要一个快速的解决方法,使我们的保险经纪们能够着手处理客户们的无索赔等级分类工作。因为缺少时间和钱,我们现在只能采用临时性的办法完成这项工作,这种行为在长期来看,使高效的数据应用更难实现了。

☆逐项、不兼容地购买外部数据也会导致“工具过载”,“工具过载”使各项技术手段的融合变得更加困难。伴随着“工具过载”而来的,还有进一步的数据过载。

☆将数字化创新工作交由企业自有的“创新加速器”来做。媒体对此种模式都抱以正面的宣传态度,而且从根本上看,支持年轻企业家追求科技化的未来,也确实是件好事情。我们也确实遇到过个别企业,他们将创新成果应用于企业经营并获得了成功,但是实事求是地讲,由“创新加速器”孵化出来的初创企业,获得创业成功的比例还是很低的。在没有核心领域背景背书的情况下,建立一个“创新加速器”,或者从狭义的角度来说,贸然去参与一家数字化初创企业的发展,这在某种程度上释放了一种错误的信号,就好像我们已经拥有一支规模很庞大的创新军团了。这种错觉会消磨人们在核心领域追求创新的动力。

这听起来有些荒谬,但是对长期的数字化效益来说,却存在着极大的隐患,尤其是当以攻为守者凭借他们的机会主义获得了首次成功的时候,又或者当他们成为本职工作和部门工作的良好内部推动者的时候。因为上述情况加深了人们的印象,即多亏了有新的工具和诸多新的数据,才使得我们没有偏离正轨。此外,我们在加速器这个问题上还有很多“百搭牌”。因此,我们并不需要彻底地改变什么。消息从上层传达到基层,然后再反馈回来,这样就很好。

来自硅谷的大数据发明者在某种程度上可能是吃了高估自己的亏。逐步获得数字化进展的“以守为攻”型企业,自己将这种进展贴上了大数据的标签,都或多或少地有些自欺欺人。正如杜克大学心理和行为经济学教授丹·艾瑞里(Dan Ariely)的格言所说的那样:“大数据就好比是青少年性行为。所有人都在谈论,但是没人敢去尝试。偶尔有几个人真去尝试了,却弄得一团糟。”

“以守为攻”者的根本问题是:

他们总是尽可能地大声疾呼大数据概念。他们夸大了自己在数据过载的情况下取得的成功。然而,他们并没有寻找到真正意义上的改革模型,这种模型可以为他们开启更广阔的前景,帮助他们占领所在行业内的数据分析制高点。

我们得承认,很难用恰当的语言表达上述情况。但是项目经验告诉我们,夸张的表达有助于我们认识到问题的存在。

选择一个比较中立的概念去描绘企业的数字化现状,和一些被数字化改革折腾得够呛的职业经理人的心情,那么这个概念应该是这样的(见下页图):

图的左下角描述了企业里数据分析活动的现状,诚实地说,许多人对实际情况是不满意的。

图右上角所描述的情况就很难把握了,它包含了一个非常抽象的范畴,即数字化的未来幻景。同时,也回答了“未来可为企业带来长效竞争力的、数字化驱动的经营模型到底是怎样的”这一问题。

图里的数字化未来幻景是通过现实中的应用案例构建的,这些案例来自例如谷歌、亚马逊、网飞、贝宝、Bluekai(数据管理软件公司,于2014年被甲骨文收购)等数据分析领域的“明星企业”。来自奥托集团的代表们都有理由去考虑,我们究竟打算怎样去获得跟他们一样的数字化竞争力。实际上,(在数字化方面)我们跟他们的差距还很大!在与他们的数字化竞争中,我们暂时不可能取得胜利!另一方面,在这个数字化未来幻景中,还存在很多雄心勃勃的数字化驱动下的初创企业。企业管理者和来自施瓦本的机械制造工程师异口同声地发问(他们也确有权利知晓),我们想要的只是这100万美元吗?如果没有一个一个的消费者,这该如何实现?如果他们晕乎乎地拿钱去了股票交易所,那我们就需要关注一下我们的季度财务数据或者月销售额了。

总体来看,这张图就是脱离现实太远。我们很难发现,图里描述的未来幻景到底跟大多数企业的日常工作有什么关系。考虑到新近的大数据项目经验、这些项目产生的成本,以及项目带来的应用成果,我们就更难去相信,在可预见的时间内,这个图中描述的数字化现状是如何发展成为图中描述的幻景的那种规模的,就如同图中的箭头穿过,直指图的右上方。

然而,这就是大部分行业中的大多数企业的数字化目标。“以守为攻”战略能够实现的前提是,你的对手也正好在“以守为攻”。如果你的对手有很好的发展战略,那你就只能等着倒霉了。此时,“以守为攻者”会比想象中的更快被“将死”。

在项目中,我们最好还是考虑一下这个问题:我们可以想象一下,如果明天谷歌、苹果或者亚马逊要涉足我们的行业和市场了,那我们该怎么办?

[1]本书德文原版出版于2015年。——编者注