第二章 AI复兴:深度学习+大数据=人工智能(第8/20页)

Hearsay和HARPY系统之后,为了将语音识别技术从稚嫩推向成熟,拉吉·瑞迪教授从美国国防部争取到了300万美元的经费,研发非特定语者、大词库、连续性的语音识别系统。瑞迪教授希望机器能听懂任何人的声音,而且至少可以懂得上千个词汇,能识别出人们自然连续说出的每一句话。这三个问题当时都是无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员。而他也期望我加入团队,并沿着当时人们普遍认为正确的专家系统的技术路线继续努力,在这30多人的队伍里面发挥重要作用。

但他怎么也没想到,我很早就对专家系统有了质疑。我之前在奥赛罗(黑白棋)人机对弈系统中的工作让我认识到,基于数据的统计建模,比模仿人类思维方式总结知识规则,更容易解决计算机领域的问题。计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。

我尝试着脱离专家系统的研究,打算从准备数据着手,建立大型的基于语音数据的语料库,并在大规模语料库的基础上尝试基于统计模型的新方法。说起这段故事,其实还和我的另一个师兄彼得·布朗(Peter Brown)有关。彼得·布朗特别聪明,他跟当年卡内基-梅隆大学毕业的许多博士生一样,进入了那个时代科学家们最向往的几个超级乐园之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授对此非常支持。

在IBM研究中心里,彼得·布朗跟着弗雷德里克·杰里耐克(Frederick Jelinek)领导的小组做语音识别。那个时代的语音识别主流是做专家系统,可IBM里的这一小撮人却悄悄搞起了概率统计模型。其中原因说出来,就完全没有了神秘感——IBM那拨人之所以去搞概率统计,倒不是真的因为他们预见到了未来,而是因为他们一时找不到语言学方面的专家。没想到,弄一大堆训练数据统计来统计去,效果还真比专家系统提升了不少,技术曙光初现。

彼得·布朗跟我透露了IBM正在研究概率统计模型的事情,但出于保密的需要,没有告诉我任何细节。我并不知道概率统计模型是不是真的好用。但基于我在奥赛罗人机对弈系统中积累的经验,我这次选择相信彼得·布朗他们的方向,也决定顺着这个思路走下去。IBM的语音识别小组要解决的是IBM关心的听写问题,目的是要用语音识别来代替打字机,代替字处理软件,他们的应用可以先根据打字者的声音进行适应性训练,要简单不少。而我要解决的是非特定语者连续语音识别问题,预先不能根据特定语者的语音进行训练,技术挑战更大。

可怎样向瑞迪教授提出我要在他计划的30多人团队之外另辟蹊径呢?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?

再三思考后,我告诉自己,我必须向他坦承我的看法。我鼓足勇气,向瑞迪教授直接表达我的想法。我对他说:“我希望转投统计学的怀抱,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’的问题。”

出乎我的意料,瑞迪教授一点儿都没生气。他只是好奇地问:“那统计方法如何解决这三大问题呢?”

对此,我已思考很久。我在瑞迪教授面前,长篇大论地说了10分钟。瑞迪教授耐心听完,用他永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”

那一刻,我被深深感动了。对一个教授来说,学生要用自己的方法做出一个与他唱反调的研究,教授不但没有动怒,还给予经费上的支持,这在很多地方是不可想象的。

最终的结果大家已经知道了,我硬是顺着这条概率统计的道路走了出来,还走得更远更好,研究出了比IBM发布的听写系统好很多的语音识别技术,用我自己的论文宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的完败。