03 在大数据与深度学习中蝶化的人工智能(第10/11页)

搜索所需要的技术基础也正是人工智能所需要的技术基础。比如就云计算来说,主管百度云工作的张亚勤认为,搜索是最大的云计算应用,没有云就没有办法做好搜索,百度是在云里出生的。

搜素引擎的继续进化

随着移动互联网和人工智能的兴起,搜索的形态在发生很大的改变。比如搜索入口变化了,除了通过网页搜索框发起搜索外,基于不同平台和硬件的搜索也在增加,语音或图像搜索部分代替了文字搜索。在人主动搜索信息的同时,信息也被推荐给需要的人。很多人从表象上看,认为这个过程是对搜索引擎的挑战。但王海峰认为,搜索引擎一直同步感知着这个变化过程。

就以“信息主动找人”来说,做Feed(信息流)是当下很多互联网企业的共识。但是“人找信息”和“信息找人”,或者搜索和Feed之间并不是非此即彼,而是相辅相成的关系,在不同场景、不同时段发生不同作用,各司其职,也会互相配合。比如有时候你需要主动找点东西,有时需要朋友推荐,有时候需要系统能猜测你的喜好并推荐。假设别人推荐一篇文章给你,阅读过程中发现一个词不太理解,这时你又需要发起搜索去查找词义。当然机器也会猜哪些词用户可能有兴趣。Feed不可能每天推送给你相同的内容,所以一条内容过了最热的时候,你再想找它又得到搜索引擎里找。在不同的状态和场景下,用户对于搜索和Feed的需求会相互转换,而如何判断这些状态和场景,正是对系统智能化的考验。有越多的数据和技术储备就越可能做好。

有了做搜索的技术储备和数据,做Feed至少在技术上是不难的。而单纯从Feed起家,想去弥补搜索和数据的缺失就比较困难。百度搜索引擎采集分析的网页量有上千亿,如此规模的大数据为百度持续提升Feed产品效果提供了必要的保障。

搜索引擎在数据洪流中持续进化,Feed只是下一个必要的环节,最终形成无所不在的搜索引擎+推荐。越来越智能化的机器可以做到“举一反三”,到最后用户只说几个词,机器就可以知晓用户想要表达的整个意思。另外还可以自动分析用户所在的位置、身份、习惯等,利用这些信息来决定向用户提供哪些搜索结果。未来在很多时候,我们无须再主动“搜索”,基于搜索引擎的Feed可以主动猜测并推送我们需要的信息。设想一下,比如在一个餐厅吃饭时,搜索引擎已经根据用户之前的搜索内容推测出用户下一步的安排,即使用户还没“问”,都会主动帮用户收集好之后需要的信息,比如当前有什么电影上映,最近的电影院在哪里等。这种设想已经在百度的产品中有所尝试。即使对于用户暂时不关注的信息,不出现在Feed里,也会合理存储起来,像一座无形的图书馆,供用户以后前往探寻。智能化的搜索引擎正在伴随我们一起成长。

搜索是最大的人工智能项目

搜索引擎一刻不停地工作着,它就是人类学习精神的镜像,每时每刻收集处理着大量数据,抓取整个互联网上的页面和内容,不管是电商、社交媒体还是新闻门户,搜索引擎都会“访问”它们。

搜索引擎是播种机、实验场和数字对撞机,结合语音识别、图像识别和机器翻译,通过大量用户的实际使用又可以采集回来更多有价值的数据,反过来帮助神经网络优化训练效果,形成一个良性的发展闭环。

自然语言处理技术的发展会带来更多的惊喜。机器除了可以快速写作具有一定格式的财经、体育新闻,即便在文学方面,机器写出的“唐诗”也令人难辨真假。看篮球、足球比赛时,解说机器人不但能够迅速通报赛场状况,还可以同时回答很多人的提问。这有点像科幻电影《Her》里的智能程序萨曼莎,她可以同时和无数人谈恋爱。恋爱大概是人类最深度的语言、思想、情感交流。萨曼莎堪称自然语言处理技术的一个高级象征,描绘出人类与机器的深刻关系。也许未来,搜索引擎真的会像萨曼莎一样,穷尽符号信息,闯进语言与意义的空隙之处,超出人类的想象。

严格来说,人工智能是一种“体力活”,要有足够的体力才能经受住那样巨大的数据和计算。而在一般的大学高校或者较小的互联网公司,数据量和硬件成本上的门槛使得发展人工智能受到很大的限制。即使不考虑CPU、GPU等硬件的购置费用,光是运维这些硬件的成本就很高,AlphaGo下一场围棋就要耗费3000美元电费。现在百度除了传统的服务器、带宽等基础设施,还拥有数百台支持人工智能运算的GPU服务器,最高配置的服务器上可以安装16张GPU卡。在这一切的基础之上,将数据储备、硬件基础、市场规模和人才团队统筹起来,最大限度地发挥优势,所追求的就不是一时一地的得失,而是最大、最基础的人工智能平台,为人类“知道更多,做到更多,体验更多”而努力。