双陆棋是世界上最古老的棋类游戏,最早出现于古老的美索不达米亚平原,始于公元前3000年左右,是古罗马比较受欢迎的娱乐活动,深受波斯人的推崇,却遭到法国国王路易九世的封杀(因为很多人使用双陆棋非法聚赌)。到17世纪,伊丽莎白的臣子们将双陆棋的规则整理成法典,自那以后,双陆棋的规则几乎没有什么变化。但是双陆棋的玩家却有了很大变化,现在世界上最著名的双陆棋玩家之一是一个软件程序。
20世纪90年代初,IBM公司的一名计算机程序员杰拉尔德·特索罗开始开发一种新的人工智能(artificial intelligence,简称AI)。当时,多数AI程序凭借的是芯片强大的计算能力。1997年,IBM大型机“深蓝”就是依靠这种策略打败国际象棋大师加里·卡斯帕罗夫(Gary Kasparov)的。深蓝每秒能分析两亿种可能的走法,因此它能不断选择最佳下棋策略(而卡斯帕罗夫的大脑每秒只能评估五步)。但这种运算需要消耗大量能量:下棋时,深蓝成了火灾隐患,需要特殊的散热设备才不至于起火。与之形成鲜明对比的是,卡斯帕罗夫几乎没有出汗。这是因为人脑堪称高效节能的典范,即使陷入沉思,大脑皮层消耗的能量也抵不上一个灯泡。
“机器打败了世界上最厉害的象棋大师!”正当新闻界庆祝深蓝的惊人战绩时,特索罗却在思考深蓝的局限。尽管深蓝的思考速度比人类快百万倍,可是它才勉强战胜对手,问题在哪里呢?特索罗认识到所有传统的AI程序,即使聪明如深蓝,都有一个问题,那就是“死板”。深蓝的智力大部分来自其他象棋大师,是通过精心编制的软件程序将大师的智慧移植过来的(IBM的程序员还研究过卡斯帕罗夫以前的国际象棋比赛,找到他常犯的错误,并写进程序,加以利用)。机器本身是不会学习的,相反,它通过预测几百万种不同走法的可能结果做决定,找到预期“价值”最大的走法后,它就会结束运算。对深蓝来说,下棋不过是不停解答数学题。
当然,这种人工智能和人类智能还是有差别的。尽管思考速度远远不及深蓝,卡斯帕罗夫仍然能够与深蓝抗衡。特索罗发现卡斯帕罗夫的神经元之所以如此有效,是因为它们进行了自我训练。经过几十年的修炼,这些神经元能迅速检测出棋局的微妙差异。不像深蓝需要分析每种可能的走法,卡斯帕罗夫能立即优化选择,集中评估几种最有效的走法。
于是,特索罗着手创造一个像加里·卡斯帕罗夫一样思考的AI程序。他选择双陆棋作为范例,并给程序取名为TD-Gammon(TD代表“暂时差异”,Gammon是“双陆棋”英文单词“Backgammon”的后半部分)。深蓝预先安装了象棋程序,与之不同的是,TDGammon绝对是从零开始。刚开始,TD-Gammon下棋时完全乱走,每场必输,犯了许多愚蠢的错误。但是,没多久,它就不像一个新手了,因为特索罗将TD-Gammon设计成具有从自身经验中学习的能力。TD-Gammon夜以继日地同自己下棋,耐心琢磨每步怎么走最有效。下了几十万次双陆棋之后,TD-Gammon便能够打败世界上最棒的人类棋手了。
这台机器是怎么把自己变成专家的?尽管特索罗的软件的内部数学运算极为复杂,但基本设计思想却相当简单。[1]任何时刻,TD-Gammon都会生成一套关于棋局将会怎样展开的预测。TD-Gammon并不像深蓝一样筛选各种可能走法,而是像加里·卡斯帕罗夫一样,根据自己以往的经验生成几种预测,然后将这些预测同实际的棋局相比较。比较所得差异就是TD-Gammon的学习材料,因为它被设计成能够不断缩小这种差异,也就是减少“误差信号”(error signal)。结果,它的预测越来越准确,意味着它的策略选择越来越有效、越来越聪明。
最近几年,TD-Gammon的设计思想被用来解决各种难题,从摩天大楼的电梯调度到机场的航班调度。蒙塔古说:“每当你碰到一个看似有着无数可能的问题,都可以求助于这种学习程序。”这类“强化学习”(reinforcement-learning)程序与传统程序的关键区别在于前者能够自己找到最佳解决办法,没人告诉计算机怎么调度电梯,但是它却能系统地自学。它不断尝试,不断犯错,不断从错误中学习,一定次数之后,看似不可避免的错误消失了,电梯已能高效运行了。
这种编程方法严格模仿了多巴胺神经元的活动模式。脑细胞也测量预测和结果之间的差距,它们通过不可避免地犯错来提高成绩,失败最终转化为成功。下面以神经学家安东尼奥·达马西奥和安托万·贝沙拉(Antoine Bechara)的著名实验爱荷华赌博任务(Iowa Gambling Task)为例说明一下。
游戏规则:
给玩家四副牌,两副红的、两副黑的和2000美元游戏币,每张牌都会写着“赢多少钱”或“输多少钱”,提示音告诉玩家从四副牌中翻出一张牌,尽最大可能赢钱。
牌并不是随意摆放的,而是经过精心设计的。其中两副风险较高,赢得多(每张最多赢100美元),输得也多(每张最多输1250美元);另外两副相对比较保险,尽管赢得少(每张最多赢50美元),但几乎不会输,如果只从这两副牌里抽牌,保证只赚不赔。
刚开始,玩家选择哪张牌完全出于偶然,因为没有理由偏向任何一副牌,所以多数玩家会尝试每副牌,从中寻找赢钱最多的牌。玩家要平均翻出50张牌之后才会锁定某副牌,但是要平均翻出80张牌之后才能解释为什么自己偏向这副牌,逻辑慢了半拍。
但是达马西奥对逻辑不感兴趣,他对情绪感兴趣。实验玩家玩游戏的过程中,一直有仪器测量他们的皮肤导电水平。一般来说,皮肤导电水平越高,意味着越紧张焦虑。研究发现,翻出仅仅10张牌之后,玩家的手伸向不好的那副牌时都会“紧张”。尽管玩家仍然对哪副牌最赚钱一无所知,他们的情绪脑已经产生精确的恐惧感了。情绪脑知道哪副牌危险,玩家的情绪率先破解了游戏。
研究证明,不能体验任何情绪的神经受损患者——通常是因为OFC受损——不能选择好牌。实验中,多数人都能赢一大笔钱,但这些纯粹理性的人经常输得一分钱都不剩,不得不另外向实验研究者“贷款”。因为这些病人不能将不好的那副牌与消极情绪联系起来——他们的手从来没有显示出紧张迹象,所以他们一直一会儿翻这副牌,一会儿翻那副牌,没有特别偏向哪一副。如果输钱不能让大脑产生痛苦情绪,它也不会赢钱。
情绪脑怎样变得如此精确?它是如何这么迅速地认出最有赚头的那副牌的?要找到答案,我们还是要回到多巴胺,回到情绪情感的细胞基础。爱荷华大学和加州理工大学的科学家们让正在接受癫痫手术的病人(手术过程中,病人保持清醒)完成爱荷华赌博任务,实时观察了多巴胺神经元的学习过程。结果发现,多巴胺神经元的学习过程就像TD-Gammon一样,预测接下来会发生什么,对比预测与实际结果,如果预测错误(选择了不好的那副牌),多巴胺神经元就会立即停止放电。病人体验到消极情绪,学会不再从那副牌里抽牌(失望是有教育意义的)。然而,如果预测正确(选择了最有赚头的牌,获得奖赏),病人就会感到快乐:“我对了!”这一特定连接被强化,他的神经元很快就学会了怎样赢钱。在玩家能够明白并说出所以然之前,他的神经元已经破解了赌博游戏。
这是一项重要的认知能力。多巴胺神经元能够自动地检测到我们注意不到的细节,还能够吸收所有意识脑无法理解的信息。然后,一旦它们精炼出一套有关世界如何运作的预测模式,就会将之转化成情绪。比如,当有人向你呈现大量信息,告诉你20只股票前段时间的走势(就像美国全国广播公司财经频道在电视机屏幕下端滚动播出股票价格一样),你很快就会发现自己难以记住所有数据。如果有人问你哪只股票表现最好,你可能回答不上来。但是如果有人问你对哪只股票最有感觉——这时被提问的是你的情绪脑,你突然能认出最好的股票。这个巧妙的小实验是心理学家蒂尔曼·贝奇(Tilmann Betsch)做的。他说,情绪脑对各种股票的实际表现“异常敏感”,升值的股票与积极情绪相联系,而贬值的股票让人隐隐感到一丝不安。这种不可言喻的情绪是一种智慧,是决定过程不可或缺的一部分。即使我们认为自己什么都不知道,但我们的大脑实际上知道一些,这就是我们的情绪试图告诉我们的东西。
[1] 特索罗使用的TD学习模型以计算机科学家里奇·萨顿(Rich Sutton)和安德鲁·巴尔托(Andrew Barto)的开创性工作为基础。20世纪80年代早期,阿默斯特(Amherst)、萨顿和巴尔托在曼彻斯特大学读研究生时,希望开发一种人工智能模型。这种人工智能模型能够学习简单的规则和行为,并应用习得的规则和行为达到目标。他们的导师劝他们说,试都不要试。但是,这三个年轻的科学家很固执。萨顿说:“在计算机科学领域,这个目标一直不可实现,马文·明斯基在他的硕士论文里研究过强化学习,但是基本上放弃了,他说这不可能实现,然后离开了该领域。我们很幸运,实现了这个目标。我们知道连最简单的动物都能这样学习——没人教小鸟怎么找虫子——我们就是不知道怎么做。”