第二章 AI复兴:深度学习+大数据=人工智能(第9/20页)
解雇语言学家的故事
我和同时代的彼得·布朗等研究者一道,将语音识别从符号主义时代推动到了统计时代。这可不是简单的技术换代,这同时也意味着,那些来不及拥抱新技术的研究者在转瞬之间,就会被时代的大潮淘汰。
在微软创办亚洲研究院后,2002年年初,我加入了Windows Vista团队,并组建了一个新部门,叫自然互动服务部。当时,比尔·盖茨总是对语音、语言、智能型助手式用户界面情有独钟,于是,他要求全公司在这方面的团队都加入我的队伍,从事相关研发。
那时候,我发现在一个语言小组里,居然有一个150人的团队都在做着“无用功”。在这150人的语言处理项目团队中,有一半是完全不懂技术的语言学家,而这些语言学家居然在指挥工程师的工作。负责这个团队的高管有一个“瑰丽”的梦想:通过语言学家的介入,逐渐地形成一道“语言彩虹”,一步步解决人机界面问题,让机器越来越多地可以理解人类的语言。
这绝对不行!基于我自己在语音识别领域的研究经验,语言学家所掌握的人类语言学知识与计算机如何理解人类的语音乃至语言差别甚远。微软那些语言学家几乎都在重复我所拒绝使用的类似专家系统的传统解决方案,他们既得不到任何有说服力的学术成果,也没法对实际研发进行任何指导。
我下定决心,要让这个团队中的工程师“解放”出来,专心地做更有前景的项目。当我把这个决定告诉该团队的建立者时,他怎么也不同意我将这个团队解散和重组,于是他把状告到了鲍尔默那里,而鲍尔默又告诉了盖茨。
盖茨找到我说:“开复,我希望你的团队能让用户自然地与机器交流。那为什么你执意取消这个自然语言处理团队呢?”
“因为,这个团队走的方向是错的。”
“但是,大卫也是专家,还拯救过公司。他不认可你的看法。”
“比尔,大卫是操作系统的专家。我才是语音语言的专家。”
“但是,这个项目我们的投入很多,我们特意批准了100多个人,围绕着语言学家来解决人类语言理解的问题。”
“比尔,当你走错方向的时候,投资越大,损失就越多,弥补也越难。”
“你确定这个方向不行吗?”
“比尔,你还记得我加入公司的时候,你曾告诉我,微软的许多技术决定都借鉴了我在其他公司的工作吗?”
“当然!”
“如果我不在微软时都借鉴我的做法,那我加入了微软,请你一定也要相信我。”
盖茨沉默了一下,没有说话。
我看着盖茨的眼睛,对他说:“在公司,很多人为了自己的利益会跟你说很多话。但是,我对你保证,我不会骗你。”
在那一刹那,我感觉我们的心灵有一个难得的碰触。
“好,那就照你说的做。”盖茨说。
盖茨亲自参与这个问题的解决,最后支持了我的决策。然后,我亲自操刀,把这个团队裁减了一半,才腾出了资源来做更多、更好的项目。
时代就是这么无情,在人工智能的上一个时代,符号主义专家特别是语言学家们还风光无限,仿佛技术突破的美好前景都要由他们来描绘。但实践结果表明,我所代表的统计学派真正可以解决问题,可以提高语音识别与自然语言处理的准确率,专家系统等老一代技术就被无情抛弃。老一代研究者如果不能尽快更新知识储备,就只有面临被解雇的命运。
今天,语音识别和更广泛意义上的自然语言处理已经走进了统计方法与深度学习方法相结合,甚至是深度学习方法独立起主导作用的新时代。与我们那个时代相比,今天的语音识别真正满足了用户的应用需求。这也意味着,像我这样“上一代”的研究者就必须抓紧一切时间,转换思维和知识储备,拥抱以深度学习为代表的崭新时代,否则,就有被时代淘汰的风险。
深度学习助力语音识别
我做研究时,没有赶上深度学习技术革命。语音识别在第二次人工智能热潮中虽性能提升明显,却始终无法满足需要。在近年来的第三次人工智能热潮中,语音识别领域发生了天翻地覆的变化。深度学习就像一个秘密武器,蛰伏多年,重出江湖,首先在计算机视觉领域,帮助计算机认识人脸、认识图片和视频中的物体,然后,拔剑四顾,冲入语音识别、机器翻译、数据挖掘、自动驾驶等几乎所有人工智能的技术领域大展身手。