第二章 AI复兴:深度学习+大数据=人工智能(第7/20页)
今天的主角是人工智能。移动互联网的浪潮尚未平息,人工智能的创投就已经进入了让创业者无比兴奋的上升期。只有顺应潮流,在对的时间做对的事情,创业才最有可能成功。
正因为如此,当人工智能开始真正在产业发展中成为核心推动力的时候,我才不无遗憾地发现,如果晚生20年,如果在今天这个时代到来前夕才开始做人工智能相关的研究,那么,我也能在一个对的时代站到科研第一线,享受科技风口带给前沿研究者的巨大机遇与挑战。
当然了,这样说有些过于机会主义。而且,今天的人工智能热潮离不开此前数十年中几代研究者的耕耘与铺垫。我当年毅然摒弃符号主义学派的方法,选择使用统计模型破解语音识别难题,将识别准确率提升了一个层次,这与今天的研究者们在统计模型基础上引入深度学习方法,真正将语音识别提升到实用化的高度是一脉相承的。这数十年里,语音识别在技术选型上的波折与起伏,不正是人工智能技术螺旋形上升、发展的一个缩影吗?
语音识别的研发故事
和其他人工智能技术相仿,我亲身参与的语音识别技术也历经了数次更新换代。
早在20世纪70年代,语音识别就曾经有过一些技术突破,小小地“火”过一阵子。有趣的是,今天异常成功的深度学习技术,当年曾在语音识别领域品尝过失败的苦涩。
在卡内基-梅隆读书时,我有个同学叫亚历山大·万贝尔(Alex Waibel),他当时就跟目前在深度学习领域拥有绝对权威地位的杰弗里·辛顿(Geoffrey Hinton)合作,将人工神经网络应用于语音识别。但很遗憾,亚历山大·万贝尔也属于生不逢时的类型,当时基于人工神经网络的深度学习技术受限于计算能力和数据不足这两大痼疾,远远达不到哪怕是可以演示的效果。我当时就很看不上亚历山大·万贝尔他们的研究,觉得在当时条件下不可能有实质性的突破。现在想想,要是我们不是在20世纪80年代,而是在今天从事基于人工神经网络的语音识别研究,那该是一件多么幸福的事!
当年做语音识别,有不少技术流派,也有不少精英参与。有一对夫妻,名叫詹姆斯·贝克(James Baker)和珍妮特·贝克(Jenet Baker),他们开发了名为“龙”(DRAGON)的语音识别技术,并一起创立了龙系统技术公司(DRAGON Systems)。之后这家公司被荷兰公司Lernout&Hauspie收购,然后Lernout&Hauspie又被卖给了著名的Nuance公司(Nuance Communications,当时叫Scan Soft)。Nuance公司是今天欧美事实上的语音技术领导者,Nuance公司的语音识别产品线中至今还保留着“龙”(DRAGON)的品牌。
另外一位著名的语音识别研究者是卡内基-梅隆大学的布鲁斯·劳埃尔(Bruce Lowerre)。他也是师从我的导师——图灵奖得主拉吉·瑞迪教授从事语音识别研究的。20世纪70年代,在拉吉·瑞迪教授的领导下,卡内基-梅隆大学研发出了当时世界上最好的两个语音识别系统,早期的一个叫Hearsay,稍晚的一个叫HARPY。
Hearsay是个很可笑的系统,我们当时管它叫“黑板架构模型”(blackboard architecture model)36。技术上讲,它其实是专家系统的一种。拉吉·瑞迪教授和他的学生们把根据语言学知识总结出来的语音和英文音素、音节的对应关系用知识判定树的方式画在黑板上,每次从系统中得到一个新的发音,就根据黑板上的知识来确定对应的是哪个音素、哪个音节、哪个单词。如果黑板上的知识无法涵盖某个新的发音,就相应地扩展黑板上的知识树。这样的系统严重依赖于人的语言学知识,基本上无法扩展,只能识别很少的一组单词,也无法适应不同人的语音特点。
布鲁斯·劳埃尔觉得Hearsay完全不靠谱,他转而用自己的方式改进专家系统,做出了名为HARPY的语音识别系统。布鲁斯·劳埃尔的思路是把所有能讲的话串成一个知识网络,把每个字打开变成单独的音节、音素,然后根据它们的相互关系,串联在网络里,并对网络进行优化,用动态规划算法快速搜索这个知识网络,找出最优解答。但因为HARPY系统的本质还是专家系统,其可扩展性和可适应性并没有好到哪里去。布鲁斯·劳埃尔的努力也无疾而终。
后来到苹果工作后,我还将布鲁斯·劳埃尔雇到苹果的语音组来工作。他比我大十几岁,是我的师兄,当时似乎已经厌倦了第一线的科研工作,在语音组里工作时非常散漫,没有太多业绩,经多次打分和测评,他被列入了需要被开除、裁撤的人员名单。我当时下了很大的决心,才摆脱了同门情谊的羁绊,将这位师兄裁掉。这个决定让我痛苦,因为它违背了我心底的怜悯和同情。师兄走的那天,我告诉他,将来有任何需要帮助的地方,我都会尽量去帮他。但布鲁斯·劳埃尔显然十分气愤,他后来参加某些会议时,甚至还在自己的名片上印了一行红字——“曾被李开复裁掉”(Fired by Kai-Fu)。