首页 » 人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱 » 人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱全文在线阅读

《人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱》第二章 AI复兴:深度学习+大数据=人工智能

关灯直达底部

这一次人工智能复兴的最大特点是,AI在语音识别、机器视觉、数据挖掘等多个领域走进了业界的真实应用场景,与商业模式紧密结合,开始在产业界发挥出真正的价值。

第三次AI热潮:有何不同?

2016年3月,似乎人人都在谈人工智能。

Alpha Go与李世石的一盘棋将普通人一下子带入科技最前沿。围棋人机大战刚刚尘埃落定,“人类是不是要被机器毁灭了”之类的话题就超出了科幻迷的圈子,在普通人中流行开来。每天,我都能在各种场合听见人们谈论人工智能,哪怕是在街头的咖啡馆里,也能听到“深度学习”这样的专业字眼儿;大大小小的人工智能“论坛”或“年会”如雨后春笋般在北京、上海、广州、深圳、杭州等地涌现出来,学术界的人工智能大师们在各种会议、商业活动和科普活动中奔波忙碌,马不停蹄;一边是专业的科研机构、高科技公司在谈论人工智能,另一边,银行、保险、能源、家电等传统行业厂商也都忙不迭地把“AI”或“AI+”的标签贴在自己身上;创投领域就更是热火朝天,包括创新工场在内,每家高科技投资机构都盯紧了人工智能领域的初创公司——这种火热场面,和整个投资圈在2016年遇冷的大背景迥然不同。

可大家千万不要忘了,这并不是人机对弈第一次激起公众的热情。1997年IBM的深蓝战胜卡斯帕罗夫的那一天,全世界科技爱好者奔走相告的场景丝毫不比今天人们对Alpha Go的追捧逊色多少。再往前看,1962年,IBM的阿瑟·萨缪尔开发的西洋跳棋程序就战胜过一位盲人跳棋高手,那时,报纸也在追捧人工智能,公众也一样对智能机器的未来充满了好奇。

从20世纪60年代到90年代再到今天,从西洋跳棋到国际象棋再到围棋,三盘棋,三次人工智能在公众中引发的热潮——为什么处在风口浪尖的偏偏都是人机对弈?为什么会下棋的计算机程序如此风光?

图17 三个时代、三盘人机对弈

纵观人工智能发展史,人机对弈只是人工智能在公众心目中的地位起起落落的一个缩影。对于人工智能的技术研发者而言,选择人机对弈作为算法的突破口,这一方面是因为棋类游戏代表着一大类典型的、有清晰定义和规则、容易评估效果的智能问题;另一方面也是因为具备一定复杂性的棋类游戏通常都会被公众视为人类智慧的代表,一旦突破了人机对弈算法,也就意味着突破了公众对人工智能这项新技术的接受门槛。

的确,每次人机大战以及计算机胜出的结果,都在公众视野中激起万千波澜。可反过来想一想,人类对计算机在棋类项目上胜出的心理承受力又是何等脆弱和可笑。跳棋程序甫一成熟,公众惊呼“智能机器威胁论”,可没过几年,习惯了计算机会下简单棋类的公众又转而挑衅地说:“下个跳棋有什么了不起,有本事去下复杂无比的国际象棋试试?”IBM的深蓝刚刚战胜卡斯帕罗夫的时候,全世界关心科技发展的公众都在为人类的未来命运担忧,可没过几年,国际象棋和中国象棋程序就变成了再普通不过的计算机应用,在大多数人心目中,“下个象棋算什么智能?有本事去下奥妙无穷的围棋试试?”

网上流传着一幅有关“人工智能发展成熟度曲线”的漫画,形象地展示出人们在此前两次人工智能热潮中,从被人工智能在某些领域的惊艳表现震撼,到逐渐认识到当时的人工智能还有各种局限,以至于产生巨大心理落差的有趣过程。

图18 网上流传的漫画:人工智能发展成熟度曲线

与其说这是人类自身的心理落差,不如说这是计算机是否具有智能的判定标准在不断被拔高。从会下跳棋就算智能,到会下象棋才算智能,再到会下围棋才算智能……到底有没有客观的评价尺度?到底要给计算机设定怎样的门槛,才能正式发给它一张“人类智慧”的鉴定证书?今天我们管Alpha Go叫人工智能了,3年之后呢?5年之后呢?

Alpha Go之前,人们至少喊过两次“人类要被机器毁灭了!”20世纪60年代前后算一次,20世纪80年代到90年代前后也算一次。前两次人工智能热潮,每一次都释放过人类关于未来的瑰丽想象力,每一次都让许多人热血沸腾。但很不幸,两次热潮在分别经历了十数年的喧嚣后,无一例外地迅速跌入低谷,并在漫长的寒冬中蛰伏起来。

1998年,我来到北京创立微软亚洲研究院的时候,正值当时人工智能的热潮开始消退,人们对热潮中随处可见的盲目情绪心有余悸,很多人甚至不愿再用“人工智能”这个词来指代相关的研发领域。在学术圈子里,一度有很多人觉得,凡是叫“人工智能”的,都是那些被过分夸大,其实并不管用的技术。结果,我们为微软亚洲研究院设定科研方向的时候,就经常主动回避“人工智能”这个字眼儿,而是选用“机器视觉”“自然语言理解”“语音识别”“知识挖掘”之类侧重具体应用领域的术语。

仅仅因为人工智能的表现与普通人的期望存在差距,我们这些研究人工智能的人就羞于提及“人工智能”,这真是一件尴尬的事儿。

那么,今天这次人工智能热潮会如何发展呢?第三次人工智能热潮有何本质上的不同?几年后的我们是否还会像前两次那样,不但忘掉了曾经的兴奋,还愤愤地说人工智能都是骗子?学术界、投资界、商业界乃至普通大众还会像此前两次那样在热闹了一阵子之后就归于沉寂,甚至跌入冰点吗?

用高德纳技术成熟度曲线看AI发展史

和前面那张搞笑的“人工智能发展成熟度曲线”不同,学术界、产业界和投资界在谈到技术高潮与低谷时,经常会引用高德纳咨询公司(Gartner)推荐的技术成熟度曲线。

这条曲线显示出,几乎每一项新兴且成功的技术,在真正成熟之前,都要经历先扬后抑的过程,并在波折起伏中通过积累和迭代,最终走向真正的繁荣、稳定和有序发展。

图19 高德纳咨询公司(Gartner)技术成熟度曲线(CC BY-SA 3.0,Wikipedia)29

如图19中的曲线所示,一种新科技的研发过程通常是这样的:初创公司接受第一轮风投,开发出第一代产品,虽然不成熟,但足以吸引一批早期接受者——粉丝。在早期阶段,产品的优点被粉丝放大,大众媒体跟风炒作,将该技术推向一个充满泡沫的膨胀期。随着盲目的追捧者激增,跟风研发、生产的初创公司越来越多,产品的不足被无限放大,负面报道开始出现,供过于求的市场竞争中,大批跟风入局的初创公司不是被兼并,就是走向倒闭,只有少数拥有核心竞争力的坚持了过来。跌入低谷后,第二轮、第三轮风投资金注入大浪淘沙后仅存的中坚企业,新一代技术和产品也随之问世,整个技术曲线步入稳步攀升的平台期和成熟期,潜在用户的接受程度也从5%以下逐渐提升到20%到30%,初创企业和风投资本开始迎来高额回报。

这条曲线概括了绝大多数高新技术的发展历程。更重要的是,每年高德纳公司都会根据当年度所有流行技术的发展、成熟状况,制作出一张当年各流行技术在高德纳曲线上的发展位置图示,标示出每种前沿技术是处在萌芽期、泡沫期、低谷期还是成熟期,以及每种未达成熟期的技术还需要几年才会真正成熟起来。技术人员、投资者经常根据高德纳曲线来判断时代潮流,选择投资方向。

将高德纳技术成熟度曲线对应到人工智能波折起伏的发展历程中,其实不难看到,人工智能此前两次表现出的热潮,更多应该被理解为一项新兴技术在萌芽期的躁动以及在泡沫期的过分膨胀。

20世纪50年代到60年代,伴随着通用电子计算机的诞生,人工智能悄然在大学实验室里崭露头角。以艾伦·图灵(Alan Turing)提出图灵测试为标志,数学证明系统、知识推理系统、专家系统等里程碑式的技术和应用一下子在研究者中掀起了第一拨人工智能热潮。但那个年代,无论是计算机的运算速度还是相关的程序设计与算法理论,都远不足以支撑人工智能的发展需要。例如,计算机科学和人工智能的先驱艾伦·图灵就曾在1951年发表过一份写在纸上的象棋程序30,可惜当年的计算机难以实现这样复杂的运算。这就像探险家发现新大陆一样,第一次踏足新大陆和真正让新大陆蓬勃发展起来是根本不同的两件事。于是,从20世纪60年代末开始,无论是专业研究者还是普通公众,大家对人工智能的热情迅速消退。

20世纪80年代到90年代,也就是我在卡内基-梅隆大学发明非特定人连续语音识别技术并将其用于苹果计算机系统的时代——那的确是人工智能研究者和产品开发者的一个黄金时代。传统的基于符号主义学派的技术被我和其他同时代研究者抛弃在一边,基于统计模型的技术悄然兴起,并在语音识别、机器翻译等领域取得了不俗的进展,人工神经网络也在模式识别等应用领域开始有所建树,再加上1997年深蓝计算机战胜人类棋王卡斯帕罗夫,普通人的积极性一度高涨起来。但是,那个时代的技术进步还不够好,不足以超过人类对智能机器的心理预期。拿语音识别来说,统计模型虽然让语音识别技术前进了一大步,但还没有好到可以让普通人接受的程度,测试环境稍稍变化就会造成识别效果大幅下降。那时,我在苹果公司开发的语音识别应用就更多被用于演示和宣传,实用价值十分有限。从整体上看,那一拨人工智能热潮仍然笼罩着浓厚的学术研究和科学实验色彩,虽然激发了大众的热情,但更像是跌入谷底前的泡沫期,远没有达到与商业模式、大众需求接轨并稳步发展的地步。

2010年前后,准确地说,是从2006年开始,随着深度学习技术的成熟,加上计算机运算速度的大幅增长,当然,还有互联网时代积累起来的海量数据财富,人工智能开始了一段与以往大为不同的复兴之路。

例如,2012年到2015年,在代表计算机智能图像识别最前沿发展水平的Image Net竞赛(ILSVRC)中,参赛的人工智能算法在识别准确率上突飞猛进。2014年,在识别图片中的人、动物、车辆或其他常见对象时,基于深度学习的计算机程序超过了普通人类的肉眼识别准确率31。

图20 Image Net图像分类比赛历年来识别错误率的变化趋势

人们在Image Net竞赛(ILSVRC)中取得的非凡成就是人工智能发展史上一个了不起的里程碑,也是当今这一拨人工智能热潮由萌芽到兴起的关键节点。随着机器视觉领域的突破,深度学习迅速开始在语音识别、数据挖掘、自然语言处理等不同领域攻城略地,甚至开始将以前被人们视为科幻的自动驾驶技术带入现实。此外,基于深度学习的科研成果还被推向了各个主流商业应用领域,如银行、保险、交通运输、医疗、教育、市场营销等,第一次实现了人工智能技术与产业链条的有机结合。

今天的人工智能是“有用”的人工智能

我觉得,和前两次AI热潮相比,这一次人工智能复兴的最大特点,就是AI在多个相关领域表现出可以被普通人认可的性能或效率,并因此被成熟的商业模式接受,开始在产业界发挥出真正的价值。

心理学上说,人们接受一件新事物,就像人们感受一种外界刺激一样,是有一个心理阈值的。外界刺激(比如声、光、电)的强度太小的话,人们根本不会有任何感觉;只有外界刺激的强度超过了一个人能够感知的最小刺激量,人们才有“听到了声音”“看见了东西”之类的明确感受。这个能引起人们感知反应的最小刺激量,心理学上叫绝对阈值(absolute threshold)32。

人工智能技术的发展正是如此。还是拿图像识别来说,在人工智能发展早期,如果一个计算机程序宣称可以识别出图片中的人脸,但它的识别准确率只有五成左右,那普通人只会将这个程序看作一个玩具,绝不会认为它拥有智慧。随着技术进步,当人脸识别算法的识别准确率提高到80%甚至接近90%的时候,研究者们当然知道,取得这样的进步十分不易,但这一结果其实还是很难被普通人接受,因为每五个人脸就认错一个,这明显无法在实际生活中使用——人们也许会说这个程序挺聪明,但绝对不会认为这个程序已经聪明到可以替代人类的眼睛。只有计算机在人脸识别上的准确率非常接近甚至超过普通人的水平,安防系统才会用计算机来取代人类保安完成身份甄别工作。也就是说,对于人脸识别这个应用,接近或超过普通人的水平才是我们关心的“绝对阈值”。

所以,我们说“人工智能来了”,其实是说,人工智能或深度学习真的可以解决实际问题了。在机器视觉、语音识别、数据挖掘、自动驾驶等应用场景,人工智能接连突破了人们可以接受的心理阈值,并第一次在产业层面“落地”,发挥并创造出真正的价值。

人工智能之所以有今天的成就,深度学习技术居功至伟。谷歌最杰出的工程师杰夫·迪恩说:“我认为在过去5年,最重大的突破应该是对于深度学习的使用。这项技术目前已经成功地被应用到许许多多的场景中,从语音识别到图像识别,再到语言理解。而且有意思的是,目前我们还没有看到有什么是深度学习做不了的。希望在未来我们能看到更多更有影响力的技术。”33

所以,关于第三次人工智能热潮,我的看法是:

·前两次人工智能热潮是学术研究主导的,而这次人工智能热潮是现实商业需求主导的。

·前两次人工智能热潮多是市场宣传层面的,而这次人工智能热潮是商业模式层面的。

·前两次人工智能热潮多是学术界在劝说、游说政府和投资人投钱,而这次人工智能热潮多是投资人主动向热点领域的学术项目和创业项目投钱。

·前两次人工智能热潮更多是提出问题,而这次人工智能热潮更多是解决问题。

到底本次人工智能热潮是不是处于技术成熟度曲线的成熟上升期,到底能不能保持长期持续增长的势头,是不是会像此前的人工智能热潮那样,有跌入低谷的风险?我想,经过上面的分析,大家应该会有自己的判断。

图灵测试与第一次AI热潮

2016年是计算机科学领域的最高奖项——图灵奖设立50周年。1966年,美国计算机协会(ACM)以开创计算机科学和人工智能基本理论的科学巨匠——艾伦·图灵的名字设立了这项“计算机界的诺贝尔奖”。

图21 布莱切利园的图灵雕像(CC BY-SA 3.0,Wikipedia)

艾伦·图灵的人生本身就是一个传奇。他利用自己卓越的数学、密码学和计算理论知识,在第二次世界大战期间,帮助英国军方成功破译了德军使用的著名密码系统——恩尼格玛(Enigma)密码机。他早在20世纪30年代就提出了指导所有现代计算机(那个时候,通用电子计算机还没有诞生)的计算原理设计的图灵机理论。他还是个擅长马拉松的运动健将,却因为性取向问题受到英国政府的迫害,最终服毒身亡。有关图灵的传奇故事,2014年的电影《模仿游戏》很值得推荐,该片曾于2015年7月在中国大陆公映。

艾伦·图灵是人工智能的开拓者,他所提出的图灵测试,直到今天仍然是我们判定一部机器是否具有人类智慧的重要手段。那么,到底什么是图灵测试呢?

AI小百科 图灵测试

1945年到1948年,图灵在英国国家物理实验室负责自动计算引擎(ACE)的研究。1949年,图灵出任曼彻斯特大学计算机实验室副主任,负责英国最早的可编程计算机之一——曼彻斯特一号(Manchester Mark 1)的软件工作。

这是通用电子计算机刚刚诞生的时代。电子计算机的用户,无论是军方、科学家、研究员,还是学生,都将计算机视为一台运算速度特别快的数学计算工具。很少有人去琢磨,计算机是不是可以像人一样思考。图灵却走在了所有研究者的最前沿。

1950年10月,图灵发表了一篇名为《计算机械和智能》(Computing Machinery and Intelligence)的论文,试图探讨到底什么是人工智能。在文章中,图灵提出了一个有趣的实验:

假如有一台宣称自己会“思考”的计算机,人们该如何辨别计算机是否真的会思考呢?一个好方法是让测试者和计算机通过键盘和屏幕进行对话,测试者并不知道与之对话的到底是一台计算机还是一个人。如果测试者分不清幕后的对话者是人还是机器,即,如果计算机能在测试中表现出与人等价,或至少无法区分的智能,那么,我们就说这台计算机通过了测试并具备人工智能。

简单地说,图灵从人们心理认知的角度,为“人工智能”下了一个定义。图灵认为,人们很难直接回答一般性的,有关人工智能的问题,比如“机器会思考吗?”但是,如果把问题换一种形式,也许就变得易于操作和研究了。图灵所提出的新问题是:

在机器试图模仿人类与评判者对话的“模仿游戏”中,有思考能力的电子计算机可以做得和人一样好吗?

图灵所说的“模仿游戏”,后来也被人们称为“图灵测试”。这个定义更接近我们现在说的“强人工智能”或“通用人工智能”。另外,在论文中,图灵还对人工智能的发展给出了非常有益的建议。他认为,与其去研制模拟成人思维的计算机,不如去试着制造更简单的,也许只相当于一个小孩智慧的人工智能系统,然后再让这个系统去不断学习——这种思路正是我们今天用机器学习来解决人工智能问题的核心指导思想。

在20世纪50年代到60年代,人们对人工智能普遍持过分乐观的态度。图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光。

1966年,麻省理工学院(MIT)教授约瑟夫·维森鲍姆(Joseph Weizenbaum)发明了一个可以和人对话的小程序,名叫ELIZA。这个名字来自萧伯纳的戏剧《卖花女》——其中,卖花女的名字就叫伊莱莎·杜立德(Eliza Doolittle)。

第一次使用ELIZA程序的人几乎都被惊呆了。约瑟夫·维森鲍姆将ELIZA设计成一个可以通过谈话帮助病人完成心理恢复的心理治疗师。人们不敢相信自己的眼睛,ELIZA竟真的能够像人一样,与病人一聊就是好几十分钟,而且,有的病人还特别愿意与ELIZA聊天。

今天,我们还可以从网络上找到许多不同的ELIZA的实现版本,比如,在程序员爱用的编辑器Emacs中,有一个名叫医生(Doctor)的现代版本的ELIZA对话程序。图22是病人与这位“精神治疗医生”的一段对话记录。怎么样?还挺像两个真人在聊天吧?

想象一下,20世纪60年代的人第一次看到类似这样的人机对话,会是怎样一种既惊讶又兴奋的神情。但约瑟夫·维森鲍姆公布出来的程序原理和源代码又让当时的人大跌眼镜:ELIZA的程序逻辑非常简单!

ELIZA所做的,几乎就是在一个相当有限的话题库里,用关键字映射的方式,根据病人的问话,找到自己的回答。比如,当用户说“你好”时,ELIZA就说:“我很好。跟我说说你的情况。”此外,ELIZA会用“为什么?”“请详细解释一下”之类引导性的句子,来让整个对话不停地持续下去。同时,ELIZA还有一个非常聪明的技巧,它可以通过人称和句式替换来重复用户的句子。比如,用户说“我感到孤独和难过”时,ELIZA会说“为什么你感到孤独和难过?”这样一来,虽然根本不理解用户到底说了什么,但ELIZA表面上却用这些小技巧“装作”自己可以理解自然语言的样子。

图22 ELIZA对话程序的一个现代实现:Emacs Doctor

ELIZA是那种第一眼会让人误以为神通广大,仔细看又让人觉得不过尔尔的小程序。当年虽有人宣称ELIZA可以通过图灵测试,但更多人只是非常客观地将ELIZA看成是人们第一次实现聊天机器人(Chatbot)的尝试。追本溯源,ELIZA是现在流行的微软小冰、苹果Siri、谷歌Allo乃至亚马逊Alexa的真正鼻祖!

针对图灵测试,人工智能领域还专门设立了一个每年一度的罗布纳奖(Loebner Prize),专门颁发给在图灵测试中表现最优秀的计算机程序。所有聊天机器人程序都可以参加罗布纳奖的评测,以判定是否有程序通过图灵测试。罗布纳奖的竞赛规则和评测方式历经许多次变化与调整。1995年以前以限定话题领域的测试为主,1995年起,罗布纳奖不再限定话题领域。对话时长则从最初的5分钟逐渐增加到2010年之后的25分钟。

评测时,人类评判员坐在电脑前,同时与一个计算机程序和一个真人通过键盘和屏幕对话。对话结束后,评判员根据对话内容,判定与自己对话的两位中,哪一位是电脑,哪一位是真人。如果判定错误,就表明计算机程序在这一次对话中“愚弄”了人类。如果计算机程序愚弄人类的次数超过30%(图灵本人建议的比例数字),就可以认为,该计算机程序通过了图灵测试。罗布纳奖成立至今,尚未有任何程序超过30%的关口。2008年时,一个名叫Elbot的程序骗过了12名人类评测员中的3位,这已经很接近30%的界限 了34。

非常有趣的是,2014年,为了纪念图灵去世60周年,雷丁大学在伦敦皇家学会举办了另一场图灵测试。测试中,一个名叫尤金·古斯曼(Eugene Goostman)的聊天机器人程序取得了33%的成功率。这个聊天机器人程序是由一个名叫普林斯顿人工智能(Princeton AI,虽然叫普林斯顿,但和普林斯顿大学没有任何关系)的小团队设计实现的,它成功地在33%的评判轮次中,让评判员误以为尤金·古斯曼是一个真实的、13岁左右的小孩子。雷丁大学随即宣称,尤金·古斯曼第一次通过了图灵测试!

尤金·古斯曼真的通过了图灵测试吗?消息刚一传出,质疑声就随之而来。根据公布的尤金·古斯曼的聊天记录,罗布纳奖的创立者休·罗布纳认为,雷丁大学的测试时长只有5分钟,远没有达到罗布纳奖25分钟的标准。用5分钟的聊天记录来判定一个程序是否具有智能,这太简单和草率了35。许多学者在亲自与尤金·古斯曼进行过网上聊天后,都觉得这个聊天程序离真正的智能还远得很。至少到目前为止,尤金·古斯曼还没有得到学界的一致认可。

我挑战图灵测试的故事

说起图灵测试,我总会想起我在哥伦比亚大学读书时的一段趣事。

在哥伦比亚大学,我读的不是计算机系,却对计算机相关的课程最感兴趣。当时,教我们自然语言处理课程的老师是迈克尔·莱博维奇(Michael Lebowitz)。他为我们讲述了诺姆·乔姆斯基(Noam Chomsky)的语言学基本理论,比如基本的词法、句法关系,以及人是如何通过语法结构理解自然语言的。

学到了这些语言学方面的基本知识,年轻的我就大胆提出:“我能不能挑战一下图灵测试呢?”其实,我当时提出的想法很简单,就是做一个聊天机器人,而且,是一个只关注自然语言处理这个领域,且在说话风格上模仿我们的老师迈克尔·莱博维奇的小程序。我当时和另一位非常有才华的华人同学胡林肯(Lincoln Hu)一起,完成了程序的设计和开发。

我们做的那个程序,名字就叫迈克尔·莱博维奇。学生可以把这个程序当作老师,与“他”聊任何与自然语言处理课程相关的话题。比如,我们可以问这个程序说:“你能告诉我,语言学是什么吗?”这个程序就会装出老师迈克尔·莱博维奇的口吻说:“语言学就是关于人类语言的科学研究,包含句法、词法、语音学等研究方向。”更有趣的是,这个程序甚至会讲许多老师迈克尔·莱博维奇当年常讲的课堂笑话。

我们的程序还很幼稚,有些时候表现得比较呆笨,根本不像一个聪明的人类对话者。但这个小程序还是让老师迈克尔·莱博维奇笑逐颜开,无论是程序本身的幽默感,还是代码中的技术含量,都超过了老师的期望。老师给了我们A+的高分。

从技术上说,今天那些流行的聊天机器人程序和我们那个时代做的小程序相比,已经有了很大的进步。它们都在模仿人类语言风格之外,引入了更大的知识平台作为后盾。例如,聊天程序基于搜索引擎索引到的互联网网页建立知识库,从海量的页面信息中搜集可能的常见问题、常见回答的组合,这已经成为一种非常成熟的技术。当我们与这些程序聊天时,实际上既是一次人机间的对话,也是一次对机器背后庞大知识库的搜索操作。

另一方面,那些以参加图灵测试比赛为目标的聊天机器人程序,往往在对话策略方面有着非常针对性的设计。比如,不少在罗布纳奖测试中排名靠前的聊天程序,都刻意使用了一种攻击性强的对话风格,它们试图更多地控制聊天时的话语权,不给评判员太多深入追问的空间,并用挑战性的问句或引导性的话语,尽量将聊天控制在自己熟悉的话题领域内。这也是罗布纳奖测试为什么在近年要将聊天的时长从5分钟扩展到25分钟的重要原因——没有足够的时间,评判员根本来不及根据自己的思路,与对方深入交流。

无论如何,图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里,推动了人工智能特别是自然语言处理技术的飞速发展。我们憧憬着计算机程序真正使人信服地通过图灵测试的那一天,但我们更希望看到自然语言处理技术在文本理解与分类、语音识别、自动客服应答、自然语言控制界面等领域取得更多商业上的成功。

语音识别与第二次AI热潮

生不逢时的我

20世纪80年代到90年代的第二次AI热潮中,语音识别是当时最具代表性的几项突破性进展之一,而我自己恰恰在那个时代站到了人工智能特别是语音识别研究的最前沿。

让计算机听懂人们说的每一句话、每一个字词,这是人工智能这门学科诞生第一天科学家就努力追求的目标。但直到我从事博士研究的那个时代,语音识别才真正取得实质性的进展——很大程度上是因为我和同时代学者对传统符号主义方法的摒弃。

很多人说,我在人工智能的发展史上留下了自己的名字。这的确是事实。但就像人工智能前两次热潮中的许多研究者一样,我提出的语音识别算法虽然在那个时代处于领先地位,但距离人们觉得系统可用的心理阈值还有一定的距离。我博士毕业后,在苹果公司研发的语音识别系统就难以满足当时市场上人们对听写、输入、控制等功能的需要,很难真正变成畅销的产品。

今天回想起来,我真的有些感慨自己生不逢时。如果我晚生30年,在2010年前后读博士并从事人工智能的研究,那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构,就像今天谷歌、微软乃至国内的科大讯飞在语音识别领域所做的那样。如果我生在今天这个时代,我所开发的技术和产品一定会被亿万人使用,并深刻改变人们的生活方式。

科技发展瞬息万变,每个时代都有每个时代的领军人物和代表性的技术方向。从20世纪70年代末到20世纪90年代中,比尔·盖茨和史蒂夫·乔布斯所代表的PC时代的创业者们,缔造出微软、苹果等科技神话。从20世纪90年代末到2015年前后,谷歌、Facebook、腾讯、阿里、百度等科技巨头以及后生可畏的优步、Snapchat、美团、滴滴、小米等新兴独角兽公司,先后在互联网领域和移动互联网领域引领科技大潮。错过了PC时代的创业者,要在2010年前后去创立一家与联想、惠普、戴尔竞争的PC公司,简直就是痴人说梦。错过了互联网时代的企业家,要在今天去打造一个世界级的通用搜索引擎,就更没有任何可行性。

今天的主角是人工智能。移动互联网的浪潮尚未平息,人工智能的创投就已经进入了让创业者无比兴奋的上升期。只有顺应潮流,在对的时间做对的事情,创业才最有可能成功。

正因为如此,当人工智能开始真正在产业发展中成为核心推动力的时候,我才不无遗憾地发现,如果晚生20年,如果在今天这个时代到来前夕才开始做人工智能相关的研究,那么,我也能在一个对的时代站到科研第一线,享受科技风口带给前沿研究者的巨大机遇与挑战。

当然了,这样说有些过于机会主义。而且,今天的人工智能热潮离不开此前数十年中几代研究者的耕耘与铺垫。我当年毅然摒弃符号主义学派的方法,选择使用统计模型破解语音识别难题,将识别准确率提升了一个层次,这与今天的研究者们在统计模型基础上引入深度学习方法,真正将语音识别提升到实用化的高度是一脉相承的。这数十年里,语音识别在技术选型上的波折与起伏,不正是人工智能技术螺旋形上升、发展的一个缩影吗?

语音识别的研发故事

和其他人工智能技术相仿,我亲身参与的语音识别技术也历经了数次更新换代。

早在20世纪70年代,语音识别就曾经有过一些技术突破,小小地“火”过一阵子。有趣的是,今天异常成功的深度学习技术,当年曾在语音识别领域品尝过失败的苦涩。

在卡内基-梅隆读书时,我有个同学叫亚历山大·万贝尔(Alex Waibel),他当时就跟目前在深度学习领域拥有绝对权威地位的杰弗里·辛顿(Geoffrey Hinton)合作,将人工神经网络应用于语音识别。但很遗憾,亚历山大·万贝尔也属于生不逢时的类型,当时基于人工神经网络的深度学习技术受限于计算能力和数据不足这两大痼疾,远远达不到哪怕是可以演示的效果。我当时就很看不上亚历山大·万贝尔他们的研究,觉得在当时条件下不可能有实质性的突破。现在想想,要是我们不是在20世纪80年代,而是在今天从事基于人工神经网络的语音识别研究,那该是一件多么幸福的事!

当年做语音识别,有不少技术流派,也有不少精英参与。有一对夫妻,名叫詹姆斯·贝克(James Baker)和珍妮特·贝克(Jenet Baker),他们开发了名为“龙”(DRAGON)的语音识别技术,并一起创立了龙系统技术公司(DRAGON Systems)。之后这家公司被荷兰公司Lernout&Hauspie收购,然后Lernout&Hauspie又被卖给了著名的Nuance公司(Nuance Communications,当时叫Scan Soft)。Nuance公司是今天欧美事实上的语音技术领导者,Nuance公司的语音识别产品线中至今还保留着“龙”(DRAGON)的品牌。

另外一位著名的语音识别研究者是卡内基-梅隆大学的布鲁斯·劳埃尔(Bruce Lowerre)。他也是师从我的导师——图灵奖得主拉吉·瑞迪教授从事语音识别研究的。20世纪70年代,在拉吉·瑞迪教授的领导下,卡内基-梅隆大学研发出了当时世界上最好的两个语音识别系统,早期的一个叫Hearsay,稍晚的一个叫HARPY。

Hearsay是个很可笑的系统,我们当时管它叫“黑板架构模型”(blackboard architecture model)36。技术上讲,它其实是专家系统的一种。拉吉·瑞迪教授和他的学生们把根据语言学知识总结出来的语音和英文音素、音节的对应关系用知识判定树的方式画在黑板上,每次从系统中得到一个新的发音,就根据黑板上的知识来确定对应的是哪个音素、哪个音节、哪个单词。如果黑板上的知识无法涵盖某个新的发音,就相应地扩展黑板上的知识树。这样的系统严重依赖于人的语言学知识,基本上无法扩展,只能识别很少的一组单词,也无法适应不同人的语音特点。

布鲁斯·劳埃尔觉得Hearsay完全不靠谱,他转而用自己的方式改进专家系统,做出了名为HARPY的语音识别系统。布鲁斯·劳埃尔的思路是把所有能讲的话串成一个知识网络,把每个字打开变成单独的音节、音素,然后根据它们的相互关系,串联在网络里,并对网络进行优化,用动态规划算法快速搜索这个知识网络,找出最优解答。但因为HARPY系统的本质还是专家系统,其可扩展性和可适应性并没有好到哪里去。布鲁斯·劳埃尔的努力也无疾而终。

后来到苹果工作后,我还将布鲁斯·劳埃尔雇到苹果的语音组来工作。他比我大十几岁,是我的师兄,当时似乎已经厌倦了第一线的科研工作,在语音组里工作时非常散漫,没有太多业绩,经多次打分和测评,他被列入了需要被开除、裁撤的人员名单。我当时下了很大的决心,才摆脱了同门情谊的羁绊,将这位师兄裁掉。这个决定让我痛苦,因为它违背了我心底的怜悯和同情。师兄走的那天,我告诉他,将来有任何需要帮助的地方,我都会尽量去帮他。但布鲁斯·劳埃尔显然十分气愤,他后来参加某些会议时,甚至还在自己的名片上印了一行红字——“曾被李开复裁掉”(Fired by Kai-Fu)。

Hearsay和HARPY系统之后,为了将语音识别技术从稚嫩推向成熟,拉吉·瑞迪教授从美国国防部争取到了300万美元的经费,研发非特定语者、大词库、连续性的语音识别系统。瑞迪教授希望机器能听懂任何人的声音,而且至少可以懂得上千个词汇,能识别出人们自然连续说出的每一句话。这三个问题当时都是无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员。而他也期望我加入团队,并沿着当时人们普遍认为正确的专家系统的技术路线继续努力,在这30多人的队伍里面发挥重要作用。

但他怎么也没想到,我很早就对专家系统有了质疑。我之前在奥赛罗(黑白棋)人机对弈系统中的工作让我认识到,基于数据的统计建模,比模仿人类思维方式总结知识规则,更容易解决计算机领域的问题。计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。

我尝试着脱离专家系统的研究,打算从准备数据着手,建立大型的基于语音数据的语料库,并在大规模语料库的基础上尝试基于统计模型的新方法。说起这段故事,其实还和我的另一个师兄彼得·布朗(Peter Brown)有关。彼得·布朗特别聪明,他跟当年卡内基-梅隆大学毕业的许多博士生一样,进入了那个时代科学家们最向往的几个超级乐园之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授对此非常支持。

在IBM研究中心里,彼得·布朗跟着弗雷德里克·杰里耐克(Frederick Jelinek)领导的小组做语音识别。那个时代的语音识别主流是做专家系统,可IBM里的这一小撮人却悄悄搞起了概率统计模型。其中原因说出来,就完全没有了神秘感——IBM那拨人之所以去搞概率统计,倒不是真的因为他们预见到了未来,而是因为他们一时找不到语言学方面的专家。没想到,弄一大堆训练数据统计来统计去,效果还真比专家系统提升了不少,技术曙光初现。

彼得·布朗跟我透露了IBM正在研究概率统计模型的事情,但出于保密的需要,没有告诉我任何细节。我并不知道概率统计模型是不是真的好用。但基于我在奥赛罗人机对弈系统中积累的经验,我这次选择相信彼得·布朗他们的方向,也决定顺着这个思路走下去。IBM的语音识别小组要解决的是IBM关心的听写问题,目的是要用语音识别来代替打字机,代替字处理软件,他们的应用可以先根据打字者的声音进行适应性训练,要简单不少。而我要解决的是非特定语者连续语音识别问题,预先不能根据特定语者的语音进行训练,技术挑战更大。

可怎样向瑞迪教授提出我要在他计划的30多人团队之外另辟蹊径呢?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?

再三思考后,我告诉自己,我必须向他坦承我的看法。我鼓足勇气,向瑞迪教授直接表达我的想法。我对他说:“我希望转投统计学的怀抱,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’的问题。”

出乎我的意料,瑞迪教授一点儿都没生气。他只是好奇地问:“那统计方法如何解决这三大问题呢?”

对此,我已思考很久。我在瑞迪教授面前,长篇大论地说了10分钟。瑞迪教授耐心听完,用他永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”

那一刻,我被深深感动了。对一个教授来说,学生要用自己的方法做出一个与他唱反调的研究,教授不但没有动怒,还给予经费上的支持,这在很多地方是不可想象的。

最终的结果大家已经知道了,我硬是顺着这条概率统计的道路走了出来,还走得更远更好,研究出了比IBM发布的听写系统好很多的语音识别技术,用我自己的论文宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的完败。

解雇语言学家的故事

我和同时代的彼得·布朗等研究者一道,将语音识别从符号主义时代推动到了统计时代。这可不是简单的技术换代,这同时也意味着,那些来不及拥抱新技术的研究者在转瞬之间,就会被时代的大潮淘汰。

在微软创办亚洲研究院后,2002年年初,我加入了Windows Vista团队,并组建了一个新部门,叫自然互动服务部。当时,比尔·盖茨总是对语音、语言、智能型助手式用户界面情有独钟,于是,他要求全公司在这方面的团队都加入我的队伍,从事相关研发。

那时候,我发现在一个语言小组里,居然有一个150人的团队都在做着“无用功”。在这150人的语言处理项目团队中,有一半是完全不懂技术的语言学家,而这些语言学家居然在指挥工程师的工作。负责这个团队的高管有一个“瑰丽”的梦想:通过语言学家的介入,逐渐地形成一道“语言彩虹”,一步步解决人机界面问题,让机器越来越多地可以理解人类的语言。

这绝对不行!基于我自己在语音识别领域的研究经验,语言学家所掌握的人类语言学知识与计算机如何理解人类的语音乃至语言差别甚远。微软那些语言学家几乎都在重复我所拒绝使用的类似专家系统的传统解决方案,他们既得不到任何有说服力的学术成果,也没法对实际研发进行任何指导。

我下定决心,要让这个团队中的工程师“解放”出来,专心地做更有前景的项目。当我把这个决定告诉该团队的建立者时,他怎么也不同意我将这个团队解散和重组,于是他把状告到了鲍尔默那里,而鲍尔默又告诉了盖茨。

盖茨找到我说:“开复,我希望你的团队能让用户自然地与机器交流。那为什么你执意取消这个自然语言处理团队呢?”

“因为,这个团队走的方向是错的。”

“但是,大卫也是专家,还拯救过公司。他不认可你的看法。”

“比尔,大卫是操作系统的专家。我才是语音语言的专家。”

“但是,这个项目我们的投入很多,我们特意批准了100多个人,围绕着语言学家来解决人类语言理解的问题。”

“比尔,当你走错方向的时候,投资越大,损失就越多,弥补也越难。”

“你确定这个方向不行吗?”

“比尔,你还记得我加入公司的时候,你曾告诉我,微软的许多技术决定都借鉴了我在其他公司的工作吗?”

“当然!”

“如果我不在微软时都借鉴我的做法,那我加入了微软,请你一定也要相信我。”

盖茨沉默了一下,没有说话。

我看着盖茨的眼睛,对他说:“在公司,很多人为了自己的利益会跟你说很多话。但是,我对你保证,我不会骗你。”

在那一刹那,我感觉我们的心灵有一个难得的碰触。

“好,那就照你说的做。”盖茨说。

盖茨亲自参与这个问题的解决,最后支持了我的决策。然后,我亲自操刀,把这个团队裁减了一半,才腾出了资源来做更多、更好的项目。

时代就是这么无情,在人工智能的上一个时代,符号主义专家特别是语言学家们还风光无限,仿佛技术突破的美好前景都要由他们来描绘。但实践结果表明,我所代表的统计学派真正可以解决问题,可以提高语音识别与自然语言处理的准确率,专家系统等老一代技术就被无情抛弃。老一代研究者如果不能尽快更新知识储备,就只有面临被解雇的命运。

今天,语音识别和更广泛意义上的自然语言处理已经走进了统计方法与深度学习方法相结合,甚至是深度学习方法独立起主导作用的新时代。与我们那个时代相比,今天的语音识别真正满足了用户的应用需求。这也意味着,像我这样“上一代”的研究者就必须抓紧一切时间,转换思维和知识储备,拥抱以深度学习为代表的崭新时代,否则,就有被时代淘汰的风险。

深度学习助力语音识别

我做研究时,没有赶上深度学习技术革命。语音识别在第二次人工智能热潮中虽性能提升明显,却始终无法满足需要。在近年来的第三次人工智能热潮中,语音识别领域发生了天翻地覆的变化。深度学习就像一个秘密武器,蛰伏多年,重出江湖,首先在计算机视觉领域,帮助计算机认识人脸、认识图片和视频中的物体,然后,拔剑四顾,冲入语音识别、机器翻译、数据挖掘、自动驾驶等几乎所有人工智能的技术领域大展身手。

2011年前,主流的语音识别算法在各主要语音测试数据集中的识别准确率还与人类的听写准确率有一定差距。2013年,谷歌语音识别系统对单词的识别错误率在23%左右。也就是说,深度学习技术在语音识别系统广泛应用之前,基本还停留在比较稚嫩的阶段,说话者必须放慢语速,力求吐字清晰,才能获得一个令人满意的准确率。

但仅仅两年时间,因为深度学习技术的成功应用,谷歌在2015年5月举办的Google I/O年度开发者大会上宣布,谷歌的语音识别系统已将识别错误率降低到了惊人的8%37!

而IBM的Watson智能系统也不遑多让,很快就将语音识别的错误率降低到了6.9%。

微软则更进一步。2016年9月,微软研究院发布了里程碑式的研究成果:在业界公认的标准评测中,微软最新的基于深度学习的语音识别系统已经成功地将识别错误率降低到了6.3%38。

图23 近20年来语音识别错误率的下降趋势

如图23所示,在我从事语音识别研究的时代,统计模型崛起,并在随后的一二十年中,将按照单词统计的识别错误率从40%左右降低到20%左右。但在今天的深度学习时代,只用了两三年的时间,微软、IBM、谷歌等公司就将语音识别的错误率从20%左右降低到了6.3%!

这就是为什么我们说,这一拨人工智能浪潮的最大特点是人工智能技术真正突破了人类的心理阈值,达到了大多数人心目中“可用”的标准。以此为基础,人工智能技术在语音识别、机器视觉、数据挖掘等各领域走进了业界的真实应用场景,与商业模式紧密结合。

例如,今天我们拿出手机,使用苹果手机内置的语音输入法,或者使用中文世界流行的科大讯飞语音输入法,我们就可以直接对着手机说话以录入文字信息。技术上,科大讯飞的语音输入法可以达到每分钟录入400个汉字的输入效率,甚至还支持十几种方言输入。在不方便用键盘打字的场合,比如坐在汽车或火车上,我就经常用语音输入法录入文字,然后再将文字信息发给别人;有时候,我还直接用语音识别系统来写大段的文章。

深度学习携手大数据引领第三次AI热潮

语音识别系统在近年来突飞猛进,技术上只有一个原因——深度学习!事实上,机器视觉领域,2014年在Image Net竞赛(ILSVRC)中第一次超越人类肉眼识别准确率的图像识别算法也是深度学习的杰作!

今天,人工智能领域的研究者,几乎无人不谈深度学习。很多人甚至高喊出了“深度学习=人工智能”的口号。

毋庸讳言,深度学习绝对不是人工智能领域的唯一解决方案,二者之间也无法画上等号。但说深度学习是当今乃至未来很长一段时间内引领人工智能发展的核心技术,则一点儿也不为过。

人工智能大师、深度学习泰斗约书亚·本吉奥(Yoshua Bengio)说:“没有可与深度学习竞争的人工智能技术。人工智能是循序渐进的耐心工作的成果,而且它总是站在巨人的肩膀上,并且这些进步在某种程度上促成了转折点——我们可以在新服务中利用这些成果来生产新东西,进行经济转型以及改变社会。正如人们所写的那样,我们正在经历另一场工业革命,它并不是简单地增加人类的机械力;计算机将增加人类的认知能力和智力。我谈到了深度学习,因为这些变化和突破在很大程度上正是由于深度学习的进步。”39

2006年开始的第三拨人工智能热潮,绝大部分功劳要归于深度学习!

从神经网络到深度学习

深度学习究竟是何方神圣?

和许多人的想象相反,深度学习可不是一下子从石头缝里蹦出来、横空出世的大神,它的历史几乎和人工智能的历史一样长。只不过,数十年里,深度学习及相关的人工神经网络技术由于种种原因,蛰伏于人工智能兵器库的一角,默默无闻,任由其他门类的兵器在战场上耀武扬威。蛰伏不等于沉寂,在漫长的等待中,深度学习技术不断磨砺自己,弥补缺陷,打磨锋刃。当然,最重要的,是等待最合适的出山时机。

2000年后,计算机产业的发展带来了计算性能、处理能力的大幅提高,尤其是以谷歌为代表的前沿企业在分布式计算上取得了深厚积累,成千上万台计算机组成的大规模计算集群早已不再是稀罕物。而互联网产业的发展则使搜索引擎、电子商务等公司聚集了数以亿计的高质量的海量数据。大计算能力和大数据,正是深度学习这件深藏不露的千古神兵所等待的两大时机。

终于,万事俱备,只欠东风。2006年,深度学习泰斗杰弗里·辛顿及其合作者用一篇名为《一种深度置信网络的快速学习算法》40的论文宣告了深度学习时代的到来——当然,这么说有些夸张。准确描述是,深度学习在2010年前后的兴起是建立在以杰弗里·辛顿为代表的一众大师级人物数十年的积累基础之上的,2006年前后的一系列关键论文只是加速了深度学习的实用化进程。

千古神兵重新披挂上阵!

我们可以由今天的深度学习追溯到它的核心计算模型——人工神经网络的诞生之日。早在通用计算机问世前的1943年,神经科学家沃伦·麦卡洛克(Warren Mc Culloch)和沃尔特·彼茨(Walter Pitts)就提出了一种大胆假说,描述了人类神经节沿着网状结构传递和处理信息的模型。这一假说一方面被神经科学家用于研究人类的感知原理;另一方面则被计算机科学家们借鉴,用于人工智能的相关研究。后者也被学术界称为人工神经网络。

20世纪40年代,唐纳德·赫布(Donald Hebb)尝试将人工神经网络用于机器学习,创建出早期的“赫布型学习”(Hebbian Learning)理论。1954年,计算机科学家韦斯利·A.克拉克(Wesley A.Clark)在麻省理工学院尝试在计算机上实现赫布型学习的基本模型。1958年,弗兰克·罗森布拉特(Frank Rosenblatt)提出了“感知机”(Perceptron)的概念,这是一个基于人工神经网络的两层计算结构,用于简单的模式识别。1965年,A.G.伊瓦赫年科(Alexey Grigorevich Ivakhnenko)提出建立多层人工神经网络的设想,这种基于多层神经网络的机器学习模型后来被人们称为“深度学习”,伊瓦赫年科有时也被称为“深度学习之父”。

1969年是人工神经网络遭遇滑铁卢的一年。麻省理工学院的图灵奖得主、人工智能大师、人工神经网络的早期奠基人之一马文·闵斯基(Marvin Minsky)在这一年和西摩尔·派普特(Seymour Papert)出版了《感知机》(Perceptrons)一书,书中讨论了当时人工神经网络难以解决的“异或难题”(非专业读者完全不需要了解这个古怪的名词指的到底是什么东西)。有些讽刺的是,马文·闵斯基既是人工神经网络的早期奠基人之一,也是人工神经网络在1969年后陷入停滞的始作俑者。他在《感知机》一书中对“异或难题”的讨论打消了大多数研究者继续坚持人工神经网络研究的心思。不少人至今仍认为,马文·闵斯基在《感知机》里是持悲观态度并站在人工神经网络发展的对立面的,但另一些人则认为,马文·闵斯基当时是持开放的讨论态度,而不是打算消极放弃。无论这段公案的真实情况如何,马文·闵斯基都是值得我们尊敬的人工智能大师。2016年年初,马文·闵斯基去世时,曾经对乔布斯和苹果影响巨大的教父级人物艾伦·凯(Alan Kay)是这样评价马文·闵斯基的:

“马文是为数不多的人工智能先驱之一,他用自己的视野和洞见,将计算机从一部超强加法器的传统定位中解放出来,并为其赋予了新的使命——有史以来最强大的人类力量倍增器之一。”41

和那个年代的许多人工智能大师一样,马文·闵斯基在人工智能研究之外,也是一个跨界的天才。第二次世界大战时,马文当过兵。之后,马文在哈佛大学学习数学期间,同时也修习音乐。除了钢琴演奏,他还有一个特长——即兴创作古典赋格音乐。他自己将音乐家分为“创作者”和“即兴创作者”两大类。显然,马文·闵斯基颇以具备即兴创作的能力而自豪。

据马文·闵斯基的女儿回忆,马文·闵斯基的家中,每天夜晚的常态是群贤毕至,少长咸集,宏谈阔论,琴声悦耳。42为客人弹奏即兴钢琴曲的,当然是马文·闵斯基本人。

基于音乐方面的才华,马文·闵斯基还发明过一部名叫“音乐三角”(Triadex Muse)的音乐合成器。今天在苹果电脑或者i Pad上玩Garage Band的体验,不知道有没有当年玩音乐三角那么酷。而且,那个建造于20世纪70年代的音乐三角长得还非常前卫,非常时髦。据说,马文·闵斯基这部合成器创造了好几个历史第一。但更加值得一提的是,这部合成器其实是马文·闵斯基所做的一项融合了电子合成乐与早期人工智能探索的科技实验。在马文·闵斯基自己看来,理解音乐是理解人类大脑的一种有效途径,反之,理解人类的大脑也有助于我们欣赏音乐的本质。

马文·闵斯基说:“理解大脑这件事似乎比理解音乐要难一些,但我们应该知道,有时对问题领域的扩展可以让问题变得更简单!在好几个世纪的时间里,代数方程的平方根理论都受困于由实数构成的狭小世界,但在高斯揭示出更大的复数世界后,一切都变得简单起来。类似地,一旦能穿透听众的心灵,音乐就会显示出更为丰富的内涵。”43

1975年,马文·闵斯基提出的“异或难题”才被理论界彻底解决。由此进入20世纪80年代,人工神经网络的发展又回到正轨。但在整个20世纪80年代和90年代,甚至直到2000年后的若干年,人工神经网络不过是作为机器学习的一种算法,与其他不同流派、不同风格的机器学习算法一道,在人工智能研究领域发挥作用。

随着PC的普及和互联网时代的到来,人们关于计算机识别图像、文字、语音的需求越来越明确。研究者们尝试着使用人工神经网络来解决类似问题,但效果并不显著。许多人试图使用基于多层神经网络的深度学习技术。据说,“深度学习”(Deep Learning)这个术语是从1986年起流行开来的44。但是,当时的深度学习理论还无法解决网络层次加深后带来的诸多问题,计算机的计算能力也远远达不到深度神经网络的需要。更重要的是,深度学习赖以施展威力的大规模海量数据还没有完全准备好,因而深度学习在真正横空出世前,已经经历了十几年的等待和蛰伏期。

2006年是深度学习发展史上的分水岭。此前提过,杰弗里·辛顿在这一年发表了《一种深度置信网络的快速学习算法》及其他几篇重要论文,其他深度学习领域的泰斗、大师们也在这一年前后贡献了一批重要的学术文章,在基本理论方面取得了若干重大突破。深度学习也由此进入了高速发展的全盛期。

说起来,杰弗里·辛顿这个人很有意思,他曾在卡内基-梅隆大学做过5年教职。我在卡内基-梅隆大学读博士时,杰弗里·辛顿的办公室就在我的办公室的斜对面。有时候,人们会觉得杰弗里·辛顿的思维和交流方式很奇怪,似乎是一种多维跳跃的模式。跟他讲话时,时常陷入尴尬。如果对你讲的东西没什么兴趣,他就会茫然地看着某个地方。

当时,我在做奥赛罗(黑白棋)人机对弈系统的开发。我的导师让我请杰弗里·辛顿作为我这个项目的指导老师。我就去找杰弗里·辛顿,跟他谈我编写奥赛罗程序的思路。

杰弗里·辛顿问我:“你这个系统里,有什么是和人工神经网络相关的吗?”

我说,我这个程序里用的是相对简单的贝叶斯分类器,自动从每一盘对局中,提取四个原始特征,然后用贝叶斯分类器将这些特征综合起来进行计算,以估算下一步走在某个位置的赢棋概率。在这个思路的基础上,人工神经网络是可以发挥作用的。此外,我当时也使用了一个与今天Alpha Go类似的思路,就是让计算机程序自己和自己下棋,然后从几百万个已知的行棋步骤中,归纳出赢或者输的概率,并用类似的方法不断迭代,以达到最好的效果。

在我讲这些细节的过程中,杰弗里·辛顿就已经开始想其他事情了,他的眼睛不再看我,而是茫茫然的,不知道在注视哪里。

好一会儿,辛顿对我说:“开复,没问题,我来给你签字吧。”

就这样,我的奥赛罗人机对弈程序算是通过了他的审核。前后也就是半个小时的样子。可我觉得,他根本没有注意我所讲的技术细节。虽然我当时对自己使用的技术很兴奋,但在他眼中,也许那些都只是些小儿科的玩意儿,跟他当时正在做的有关人工神经网络的研究不可相提并论吧。

谷歌大脑:世界最强大的深度学习集群

深度学习能够大展身手的两个前提条件——强大的计算能力和高质量的大数据,都是在2010年前后逐渐步入成熟的。深度学习、大规模计算、大数据三位一体,神兵出世,一下子就可以摧城拔寨、无坚不摧。其中,最有代表性的事件,就是谷歌大脑(Google Brain)的建立,以及谷歌、Facebook、百度等一大批顶尖科技公司纷纷将“人工智能优先”设定为公司的科技发展战略。

谷歌大脑是在2011年由谷歌最资深的科学家与工程师杰夫·迪恩,以及后来在百度任首席科学家的吴恩达(Andrew Ng)带领团队创建的。这是一个庞大的深度学习计算框架,拥有数万台高性能的计算机和顶级的图形处理器作为计算单元(早期,谷歌大脑是只使用CPU作为计算单元,引入GPU是稍晚一些的事),可以完成大规模、多维度、多层次的深度学习模型训练和演算。

2012年6月,谷歌大脑初战告捷。据当时的《纽约时报》报道,谷歌使用了一个拥有16000个CPU的大规模计算机集群,让计算机用深度学习模型自己“看”了一千万段You Tube上的视频,然后,计算机自己“学”到了如何从视频中辨认一只猫45!

谷歌大脑的创建者杰夫·迪恩在介绍谷歌大脑团队时说:“我们专注于建造可用于机器学习的大规模计算系统,以及进行高级机器学习研究。我们同时拥有这两方面的人才,而他们联合起来解决问题,这常常会带来显著的进步,这种进步是只具有机器学习技能或只具有大规模计算技能的人无法单独取得的。我认为这是我们团队取得众多成功的原因之一。它使我们既在这两个领域取得成功,也让我们能够将‘为问题投入多少计算’和‘如何为我们关心的问题训练大型、强大的模型’方面的最高水平进一步提升。”46

谷歌大脑的第一个版本建成后不久,吴恩达就离开谷歌,转而帮助百度开展人工智能技术研究。深度学习大师杰弗里·辛顿则在谷歌大脑项目成立的第二年加入了谷歌,主持谷歌大脑团队中的理论研究。同时,杰弗里·辛顿仍继续他在多伦多大学的教职。他目前的生活被分成了两部分:在多伦多的科研和教学生涯,以及在谷歌贴近产业前沿的研究实践。最初,杰弗里·辛顿并不想正式加入谷歌,他只想利用休假时间,试着在谷歌工作三个月。为此,谷歌不得不先与他签订了一份实习生合同。这样,深度学习领域数一数二的大师级人物杰弗里·辛顿,就以一个普通实习生的身份来谷歌上班了。杰弗里·辛顿说:“直到有一天,有人在午餐时对我说:‘辛顿教授!我选修了你的课!你在这里做什么?’自此以后,再也没有人质疑辛顿作为实习生的存在了。”47

今天,有深度学习助力,有基于互联网的海量数据支撑,有数以万计的强大计算机集群,谷歌大脑正在帮助谷歌公司解决横跨多个领域的几乎所有人工智能的相关问题:谷歌的搜索引擎正在使用谷歌大脑优化搜索结果的排序,或直接回答用户感兴趣的知识性问题;谷歌的街景服务使用谷歌大脑智能识别街道上的门牌号,以进行精准定位;使用了谷歌大脑的谷歌翻译平台在2016年连续取得翻译质量的革命性突破,将全世界一百多种语言的相互翻译质量提升了一个层次;谷歌自动驾驶汽车正基于谷歌大脑对数百万英里的行驶记录进行训练,以改进驾驶策略,保证绝对安全……

谷歌大脑是谷歌公司人工智能优先战略的核心,也是类似谷歌这样的顶级科技公司在人工智能方面全力投入的一个缩影。国内的高科技企业,如百度、阿里、腾讯、华为、小米、搜狗、滴滴、今日头条等,都在近年纷纷建立了人工智能研究团队,搭建了类似谷歌大脑的大规模深度学习集群,而这些集群已经在诸多产品中发挥着深度学习的神奇效能。

AI小百科 什么是深度学习?

第三拨人工智能热潮源于深度学习的复兴。那么,到底什么是深度学习?为什么深度学习能让计算机一下子变得聪明起来?为什么深度学习相比其他机器学习技术,能够在机器视觉、语音识别、自然语言处理、机器翻译、数据挖掘、自动驾驶等方面取得好得多的效果?

从根本上来说,深度学习和所有机器学习方法一样,是一种用数学模型对真实世界中的特定问题进行建模,以解决该领域内相似问题的过程。

好了,好了,我知道一提“数学”二字,读者就会跑掉一大半,更别说让非理工科专业的人摸不着头脑的“建模”一词了。有没有可能用非理工科专业也听得懂的术语,解释一下如今在人工智能领域如日中天的深度学习算法呢?

首先,深度学习是一种机器学习。既然名为“学习”,那自然与我们人类的学习过程有某种程度的相似。回想一下,一个人类小朋友是如何学习 的?

比如,很多小朋友都用识字卡片来认字。从古时候人们用的“上大人、孔乙己”之类的描红本,到今天在手机、平板电脑上教小朋友认字的识字卡片app,最基本的思路就是按照从简单到复杂的顺序,让小朋友反复看每个汉字的各种写法(大一点儿的小朋友甚至要学着认识不同的书法字体),看得多了,自然就记住了。下次再见到同一个字,就很容易能认出来。

这个有趣的识字过程看似简单,实则奥妙无穷。认字时,一定是小朋友的大脑在接受许多遍相似图像的刺激后,为每个汉字总结出了某种规律性的东西,下次大脑再看到符合这种规律的图案,就知道是什么字了。

其实,要教计算机认字,差不多也是同样的道理。计算机也要先把每一个字的图案反复看很多很多遍,然后,在计算机的大脑(处理器加上存储器)里,总结出一个规律来,以后计算机再看到类似的图案,只要符合之前总结的规律,计算机就能知道这图案到底是什么字。

用专业的术语来说,计算机用来学习的、反复看的图片叫“训练数据集”;“训练数据集”中,一类数据区别于另一类数据的不同方面的属性或特质,叫作“特征”;计算机在“大脑”中总结规律的过程,叫“建模”;计算机在“大脑”中总结出的规律,就是我们常说的“模型”;而计算机通过反复看图,总结出规律,然后学会认字的过程,就叫“机器学 习”。

到底计算机是怎么学习的?计算机总结出的规律又是什么样的呢?这取决于我们使用什么样的机器学习算法。

有一种算法非常简单,模仿的是小朋友学识字的思路。家长和老师们可能都有这样的经验:小朋友开始学识字,比如先教小朋友分辨“一”“二”“三”时,我们会告诉小朋友说,一笔写成的字是“一”,两笔写成的字是“二”,三笔写成的字是“三”。这个规律好记又好用。但是,开始学新字时,这个规律就未必奏效了。比如,“口”也是三笔,可它却不是“三”。我们通常会告诉小朋友,围成个方框儿的是“口”,排成横排的是“三”。这规律又丰富了一层,但仍然禁不住识字数量的增长。很快,小朋友就发现,“田”也是个方框儿,可它不是“口”。我们这时会告诉小朋友,方框里有个“十”的是“田”。再往后,我们多半就要告诉小朋友,“田”上面出头是“由”,下面出头是“甲”,上下都出头是“申”。很多小朋友就是在这样一步一步丰富起来的特征规律的指引下,慢慢学会自己总结规律,自己记住新的汉字,并进而学会几千个汉字 的。

有一种名叫决策树的机器学习方法,就和上面根据特征规律来识字的过程非常相似。当计算机只需要认识“一”“二”“三”这三个字时,计算机只要数一下要识别的汉字的笔画数量,就可以分辨出来了。当我们为待识别汉字集(训练数据集)增加“口”和“田”时,计算机之前的判定方法失败,就必须引入其他判定条件。由此一步步推进,计算机就能认识越来越多的字。

图24 计算机分辨“一”“二”“三”“口”“田”的决策树

图25 计算机学习了“由”“甲”“申”三个新汉字之后的决策树

图25显示了计算机学习“由”“甲”“申”这三个新汉字前后,计算机内部的决策树的不同。这说明,当我们给计算机“看”了三个新汉字及其特征后,计算机就像小朋友那样,总结并记住了新的规律,“认识”了更多的汉字。这个过程,就是一种最基本的机器学习了。

当然,这种基于决策树的学习方法太简单了,很难扩展,也很难适应现实世界的不同情况。于是,科学家和工程师们陆续发明出了许许多多不同的机器学习方法。

例如,我们可以把汉字“由”“甲”“申”的特征,包括有没有出头、笔画间的位置关系等,映射到某个特定空间里的一个点(我知道,这里又出现数学术语了。不过这不重要,是否理解“映射”的真实含义,完全不影响后续阅读)。也就是说,训练数据集中,这三个字的大量不同写法,在计算机看来就变成了空间中的一大堆点。只要我们对每个字的特征提取得足够好,空间中的一大堆点就会大致分布在三个不同的范围里。

这时,让计算机观察这些点的规律,看能不能用一种简明的分割方法(比如在空间中画直线),把空间分割成几个相互独立的区域,尽量使得训练数据集中每个字对应的点都位于同一个区域内。如果这种分割是可行的,就说明计算机“学”到了这些字在空间中的分布规律,为这些字建立了模 型。

接下来,看见一个新的汉字图像时,计算机就简单把图像换算成空间里的一个点,然后判断这个点落在了哪个字的区域里,这下,不就能知道这个图像是什么字了吗?

很多人可能已经看出来了,使用画直线的方法来分割一个平面空间(如图26所示),很难适应几千个汉字以及总计至少数万种不同的写法。如果想把每个汉字的不同变形都对应为空间中的点,那就极难找到一种数学上比较直截了当的方法,来将每个汉字对应的点都分割包围在不同区域里。

很多年里,数学家和计算机科学家就是被类似的问题所困扰。人们不断改进机器学习方法。比如,用复杂的高阶函数来画出变化多端的曲线,以便将空间里相互交错的点分开来,或者,干脆想办法把二维空间变成三维空间、四维空间甚至几百维、几千维、几万维的高维空间。在深度学习实用化之前,人们发明了许多种传统的、非深度的机器学习方法。这些方法虽然在特定领域取得了一定成就,但这个世界实在是复杂多样、变化万千,无论人们为计算机选择了多么优雅的建模方法,都很难真正模拟世界万物的特征规律。这就像一个试图用有限几种颜色画出世界真实面貌的画家,即便画艺再高明,他也很难做到“写实”二字。

图26 使用空间分割法的机器学习

那么,如何大幅扩展计算机在描述世界规律时的基本手段呢?有没有可能为计算机设计一种灵活度极高的表达方式,然后让计算机在大规模的学习过程里不断尝试和寻找,自己去总结规律,直到最终找到符合真实世界特征的一种表示方法呢?

现在,我们终于要谈到深度学习了!

深度学习就是这样一种在表达能力上灵活多变,同时又允许计算机不断尝试,直到最终逼近目标的机器学习方法。从数学本质上说,深度学习与前面谈到的传统机器学习方法并没有实质性差别,都是希望在高维空间中,根据对象特征,将不同类别的对象区分开来。但深度学习的表达能力,与传统机器学习相比,却有着天壤之别。

简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型,如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。

这么说还是太抽象、太难懂。我们换一种更直观的讲法。

假设深度学习要处理的数据是信息的“水流”,而处理数据的深度学习网络是一个由管道和阀门组成的巨大的水管网络。网络的入口是若干管道开口,网络的出口也是若干管道开口。这个水管网络有许多层,每一层有许多个可以控制水流流向与流量的调节阀。根据不同任务的需要,水管网络的层数、每层的调节阀数量可以有不同的变化组合。对复杂任务来说,调节阀的总数可以成千上万甚至更多。水管网络中,每一层的每个调节阀都通过水管与下一层的所有调节阀连接起来,组成一个从前到后,逐层完全连通的水流系统(这里说的是一种比较基本的情况,不同的深度学习模型,在水管的安装和连接方式上,是有差别的)。

那么,计算机该如何使用这个庞大的水管网络,来学习识字呢?

比如,当计算机看到一张写有“田”字的图片时,就简单将组成这张图片的所有数字(在计算机里,图片的每个颜色点都是用“0”和“1”组成的数字来表示的)全都变成信息的水流,从入口灌进水管网络。

我们预先在水管网络的每个出口都插一块字牌,对应于每一个我们想让计算机认识的汉字。这时,因为输入的是“田”这个汉字,等水流流过整个水管网络,计算机就会跑到管道出口位置去看一看,是不是标记有“田”字的管道出口流出来的水流最多。如果是这样,就说明这个管道网络符合要求。如果不是这样,我们就给计算机下达命令:调节水管网络里的每一个流量调节阀,让“田”字出口“流出”的数字水流最多。

这下,计算机可要忙一阵子了,要调节那么多阀门呢!好在计算机计算速度快,暴力计算外加算法优化(其实,主要是精妙的数学方法了,不过我们这里不讲数学公式,大家只要想象计算机拼命计算的样子就可以了),总是可以很快给出一个解决方案,调好所有阀门,让出口处的流量符合要求。

下一步,学习“申”字时,我们就用类似的方法,把每一张写有“申”字的图片变成一大堆数字组成的水流,灌进水管网络,看一看,是不是写有“申”字的那个管道出口流出来的水最多,如果不是,我们还得再次调整所有的调节阀。这一次,要既保证刚才学过的“田”字不受影响,也要保证新的“申”字可以被正确处理。

图27 用“水管网络”来描述教计算机识字的深度学习过程

如此反复进行,直到所有汉字对应的水流都可以按照期望的方式流过整个水管网络。这时,我们就说,这个水管网络已经是一个训练好的深度学习模型了。

例如,图27显示了“田”字的信息水流被灌入水管网络的过程。为了让水流更多地从标记有“田”字的出口流出,计算机需要用特定方式近乎疯狂地调节所有流量调节阀,不断实验、摸索,直到水流符合要求为止。

当大量识字卡片被这个管道网络处理,所有阀门都调节到位后,整套水管网络就可以用来识别汉字了。这时,我们可以把调节好的所有阀门都“焊死”,静候新的水流到来。

与训练时做的事情类似,未知的图片会被计算机转变成数据的水流,灌入训练好的水管网络。这时,计算机只要观察一下,哪个出口流出来的水流最多,这张图片写的就是哪个字。

简单吗?神奇吗?难道深度学习竟然就是这样的一个靠疯狂调节阀门来“凑”出最佳模型的学习方法?整个水管网络内部,每个阀门为什么要如此调节,为什么要调节到这种程度,难道完全由最终每个出口的水流量来决定?这里面,真的没有什么深奥的道理可言?

深度学习大致就是这么一个用人类的数学知识与计算机算法构建起整体架构,再结合尽可能多的训练数据以及计算机的大规模运算能力去调节内部参数,尽可能逼近问题目标的半理论、半经验的建模方式。

指导深度学习的基本是一种实用主义的思想。

不是要理解更复杂的世界规律吗?那我们就不断增加整个水管网络里可调节的阀门的个数(增加层数或增加每层的调节阀数量)。不是有大量训练数据和大规模计算能力吗?那我们就让许多CPU和许多GPU(图形处理器,俗称显卡芯片,原本是专用于作图和玩游戏的,碰巧也特别适合深度学习计算)组成庞大计算阵列,让计算机在拼命调节无数个阀门的过程中,学到训练数据中的隐藏规律。也许正是因为这种实用主义的思想,深度学习的感知能力(建模能力)远强于传统的机器学习方法。

实用主义意味着不求甚解。即便一个深度学习模型已经被训练得非常“聪明”,可以非常好地解决问题,但很多情况下,连设计整个水管网络的人也未必能说清楚,为什么管道中每一个阀门要调节成这个样子。也就是说,人们通常只知道深度学习模型是否工作,却很难说出模型中某个参数的取值与最终模型的感知能力之间,到底有怎样的因果关系。

这真是一件特别有意思的事。有史以来最有效的机器学习方法,在许多人看来,竟然是一个只可意会、不可言传的“黑盒子”。

由此引发的一个哲学思辨是,如果人们只知道计算机学会了做什么,却说不清计算机在学习过程中掌握的是一种什么样的规律,那这种学习本身会不会失控?

比如,很多人由此担心,按照这样的路子发展下去,计算机会不会悄悄学到什么我们不希望它学会的知识?另外,从原理上说,如果无限增加深度学习模型的层数,那计算机的建模能力是不是就可以与真实世界的终极复杂度有一比呢?如果这个答案是肯定的,那只要有足够的数据,计算机就能学会宇宙中所有可能的知识——接下来会发生什么?大家是不是对计算机的智慧超越人类有了些许的忧虑?还好,关于深度学习到底是否有能力表达宇宙级别的复杂知识,专家们尚未有一致看法。人类至少在可见的未来还是相对安全的。

补充一点:目前,已经出现了一些可视化的工具,能够帮助我们“看见”深度学习在进行大规模运算时的“样子”。比如说,谷歌著名的深度学习框架Tensor Flow就提供了一个网页版的小工具,用人们易于理解的图示,画出了正在进行深度学习运算的整个网络的实时特征。

图28 训练深度学习模型时,整个深度神经网络的可视化状态48

图28显示了一个包含4层中间层级(隐含层)的深度神经网络针对某训练数据集进行学习时的“样子”。图中,我们可以直观地看到,网络的每个层级与下一个层级之间,数据“水流”的方向与大小。我们还可以随时在这个网页上改变深度学习框架的基本设定,从不同角度观察深度学习算法。这对我们学习和理解深度学习大有帮助。

最后,需要特别说明的是,以上对深度学习的概念阐述刻意避免了数学公式和数学论证,这种用水管网络来普及深度学习的方法只适合一般公众。对于懂数学、懂计算机科学的专业人士来说,这样的描述相当不完备也不精确。流量调节阀的比喻与深度神经网络中每个神经元相关的权重调整,在数学上并非完全等价。对水管网络的整体描述也有意忽略了深度学习算法中的代价函数、梯度下降、反向传播等重要概念。专业人士要学习深度学习,还是要从专业教程看起。