首页 » 人工智能的进化 » 人工智能的进化全文在线阅读

《人工智能的进化》自适应机器学习

关灯直达底部

当下,人工智能在科技领域受到普遍关注。各大报纸、杂志的科技和商业版块,几乎每个星期都会谈到人工智能,它们告诉我们,诸如微软、IBM(国际商用机器公司)、谷歌和苹果等大型科技公司都在人工智能的研发领域大量投入,其他公司也都竞相效仿。2015年11月,丰田公司宣布在人工智能领域投资10亿美元;2015年12月,埃隆·马斯克(Elon Musk)宣布新成立一家名为OpenAI的非营利性企业,研究人工智能,并对其另外注资10亿美元。

资本市场为何会出现这样的喧嚣?如果仔细研究一下投资者对于这数十亿美元的预期,你会发现,这里的人工智能技术似乎与科幻小说和电影中想象的人工智能大相径庭。基本没人谈论诸如电影《银翼杀手》(Blade Runner)中所看到的人形智能机器人,或者电影《2001:太空漫游》中的高能无形智能机器(哈尔9000计算机)。

当下,众多科技公司摩拳擦掌准备开发的这种人工智能,更应该被称为“自适应机器学习”(adaptive machine learning),即AML。广义来说,AML的设计理念是让计算机系统通过对大量数据进行分析,掌握智能行为方式。确切地说,目前人们对于人工智能的兴奋点主要在于挖掘并应用我们通常所说的“大数据”。

在此,我们不去深究任何AML技术如何开展工作这样的细节问题,只讨论其背后的理念。

出于论证的需要,假设我们想让计算机系统对猫进行识别。那么,该系统的工作就是将给定的众多图像分成两类:一类图像上有猫的样子,另一类图像上没有。接下来的问题就是如何建立这样一个系统。过去,人工智能程序员往往会编写出一款程序,在图像中搜寻猫的一些具体特征。例如,搜索猫的脸:泛绿色或泛黄色的眼睛、杏仁状的竖直瞳孔、倒置的粉色三角形一样的鼻子、胡须等;也可能会搜索猫的轮廓:小小的脑袋、三角形的耳朵、四条腿和向上翘起的尾巴,还可能会搜索猫身上毛皮的独特颜色。如果该程序在某个图像当中发现了足够多的上述特征,就会将该图像标记为一只猫;如果没有,则会将其忽略。

但是AML提出了一种完全不同的理念。首先,你向系统提供大量数字图像,其中一些是猫的图像,另一些不是。然后告诉系统通过某种方式压缩所有图像数据,即在众多图像的众多补丁当中搜索一组“特征”。这种特征可能是某一特定颜色和亮度,也可能是某个区域,区域的边缘在亮度和颜色上明显与其他部分不同。这一理念的目的是通过找到这样一组特征,进行重新组合并构建与原始图像相似的内容。然后,你让系统根据这些特征继续进行抽象分析,在这些特征当中寻找普遍性,随后如此继续进行几个层次的分析。

这一切都是在不告知系统具体要搜索什么的情况下完成的。如果原始图像里有很多猫的图像,那么系统就很可能会在更高层面上分析出一些与猫相关的特征。而且重要的是,这些特征全部由原始图像决定,而非人工智能程序员决定如何在图像中识别猫。正如斯坦福大学的吴恩达(Andrew Ng)所说:“你将海量数据输入程序,让数据说话,让软件自动从数据中学习。”

人们发现,AML在这种所谓“无监督”的环境下运转极其良好,完全超出几十年前人工智能研究人员做出的预测。AML的成功可以归结于以下三点:拥有可供分析处理的海量数据(通过在线、专业存储设备或传感装置获取),掌握功能强大的能够处理这些数据的计算技术,以及高速计算机。而这些条件,在30年前并不具备。

当然,不会有人愿意斥资数十亿美元,仅仅是为了识别猫。但是你想一下,如果这些不是猫而是乳腺的影像,其中一些还藏有医生难以发现的肿瘤,结果会怎样?或者假设这些根本就不是可视数据,而是一段段录音,其中包含有关人士所说的几句话?或者假设这是银行的交易数据,其中还涉及欺诈或洗钱?或者是人们在线购物过程中浏览和购买商品的历史记录,抑或是与汽车前风挡玻璃处视觉数据相对应的脚踏板和方向盘运动轨迹?计算机系统能够自动分析这些海量数据,从中获得规律,并应用于极具经济和社会效益的领域。