03 在大数据与深度学习中蝶化的人工智能(第8/11页)

所以对人类而言,机器学习往往在自己的“内部”形成一个“黑箱”。有人警告这种超越人类理解的黑箱会带来危险,因为我们不知道机器如何思考,是否产生了危险思维。不过更多时候,深度学习会给人带来意想不到的惊喜。

深“度”往事

百度语音识别开发团队的刘洋工程师说过一件趣事:一位语音团队成员在家测试语音识别程序时,无意间清唱了几句歌词,然后歌词竟然被准确识别了出来。这令他很吃惊,其他公司的语音识别技术都还做不到这个事情。而百度团队也并没有针对清唱这种形式做过训练,也没有制定过这个目标。系统怎么做到的他们也不知道,只能说训练数据达到了足够大的程度,程序在不断训练、学习的过程中,自己修得了这项令人称奇的技能。

人们对世界的变化往往后知后觉。在没有深度学习的日子里,世界似乎也一切正常。但有些看不到的代价在被一些人默默承受。周克华这个连环杀手十多年间神出鬼没,为了擒获他,公安部门调集了几乎所有的视频监控材料要发现他的踪迹。那时候公安干警怎么检索视频?全靠肉眼去看!几百甚至几千个小时的视频一段段去看,有的干警甚至累昏在岗位上。而基于深度学习技术的视觉识别将改变这一切。目前先进的监控系统背后都有强大的人工智能支持,在经过大数据训练之后,可以瞬间从视频里识别出人脸、车牌、车型等,并且加以语义化,方便人类检索。然后只要给计算机几张嫌疑人的照片,神经网络就可以飞快地从海量视频中把与嫌疑人有关的镜头都找出来供人类参考。安防企业宇视科技就开发了这样的智能摄像系统,再结合百度地图,就可以迅速定位嫌疑人或者车辆的运动轨迹。

深度学习在许多用户看不到的地方改变了我们的生活。为了采集和维护地图信息,需要通过采集车拍摄沿路的图像。传统的采集车上要坐两个人,采集过程分为内部作业和外部作业两部分,外部作业就是要开车出去,把沿途的东西都录下来。除了录像,副驾驶要负责用声音记录,每经过一个地方,要说前方这里有一个探头,那里有一个红绿灯,这里是四车道,左转、直行、右转……这是传统的方式,就是一定要把所有看到的东西通过录像和声音的方式记录下来,然后再把数据存储寄到数据处理中心。数据处理中心负责内部业务的人员再一分钟一分钟地去记录比对资料,最后把路面上的这些元素在地图上标识出来,这基本上是一个劳动密集型的工作方式。

图3-4 百度地图采集车

而应用了智能图像识别技术以后,我们先通过深度学习训练机器去辨识红绿灯、车道、探头等路面元素,之后我们只需要将沿路拍摄的全景图像直接交给机器辨识,就能得到完整的地图信息。这就极大地节省了人力,也极大地提高了效率和准确性。

深度学习除了软件算法,还有一件关于硬件的往事堪称佳话。历史上有很多发明在后来的应用中偏离了初衷。比如作为炸药的硝酸甘油可以用于心脏病急救,为了发明战略物资橡胶的人工合成替代品,结果却造出了橡皮泥……在深度学习领域,GPU的作用也被改变了。GPU本来是显卡,用来渲染图像,给图形计算加速,后来却成为深度学习的主要硬件。因为显卡芯片具备比CPU更强的浮点运算能力,原本就用于处理图像这种矩阵数据,非常适合机器学习领域对数据的计算。早期当吴恩达团队率先使用GPU进行机器学习的时候,很多人并不理解。不过今天这已经成为主流。

但最深的往事还是来自搜索引擎。

搜索引擎:人工智能的命运细线

对于今天的中国网民来说,遇到问题“百度一下”已经成为一种习惯。与百度今日的影响力和规模相对的,百度在人工智能领域的专注反而引起一些不理解。更专业的疑问是:电商、游戏、社交、通信……从PC到移动互联设备,无数个风口过去了,百度为何只对人工智能情有独钟?

问题的答案可能与很多人的思维相反,与其说是百度选择了人工智能,不如说是人工智能选择了百度。这是百度基因里的使命,辜负这个使命,会是百度、中国甚至世界的损失。

一切都源于搜索

搜索引擎对于一般用户来说只是一种工具,可以帮助他们找到需要的信息;对于提供内容的网站来说,搜索引擎是一种媒介,帮助它们将自己的内容传递给有需要的用户。在这个过程中,首先搜索引擎要“倾听”用户的需求,即小小搜索框里敲下的那几个关键词,究竟是想要找到什么;其次,搜索引擎要“检索”数量庞大的内容,从中挑选出最符合要求的那些结果提供给用户。