“囚徒困境”是博弈论中具有代表性的一个博弈模型。我们一起来分析一下在囚徒困境中,局中人为什么只盯着眼前的利益不放,不愿与对手协作,最终错过更大收益的原因。与此同时也思考一下这个博弈的解决方案。
“坦白”还是“抗拒”?囚徒们的困境
~囚徒困境①~
在博弈论中,有一个非常著名的模型——“囚徒困境”。这里的“囚徒”,准确地说是指被逮捕的两名犯罪嫌疑人。两个人都想获得更高的收益,结果两人不愿协作获得相对较高的收益,而是在警察的说服下选择了背叛对方。最终,两人只能获得较低的收益。这是一个残酷的博弈。
◎例题4-1囚徒困境
有两名一起行窃的盗贼被警察抓住了。但是,警方手上暂时缺乏有效的证据,如果两名犯罪嫌疑人始终保持沉默的话,警方因为证据不足,就无法对他们进行起诉。那样一来,两人最多只能被监禁1年。为了让他们招供,警察和两名犯罪嫌疑人说了同样一番话:“如果你把犯罪的经过原原本本地供出来,我可以减轻对你的惩罚,甚至说你是被他人胁迫犯罪的,进而免予惩罚。但是,如果你拒不招供,而你的同伙坦白了,把你供出来的话,你可能要被判5年。如果你们俩都坦白的话,那么都会被判3年。”假设你是犯罪嫌疑人A的话,此时你会怎么选择呢?是继续保持沉默,还是按照警察说的坦白罪行?
在这个博弈中,局中人是犯罪嫌疑人A和B,策略是“坦白”或“沉默”。局中人的收益如表4-1所示。
作为犯罪嫌疑人A,你可能会这样分析:“如果我们俩都保持沉默的话,最多也就被监禁1年。1年时间,忍忍也就过去了。所以,我还是不能坦白,要继续保持沉默。等等!不对!B那个家伙可靠不住,他胆小怕事,只顾自己,又爱背叛。如果他禁不住警察的威逼利诱,为了自己的自由把我供出来的话,我可要被判5年。那家伙绝对会坦白招供的!我可不想吃5年的牢饭!好,还是我先坦白吧!”
结果,你先向警方坦白了。而你的同伙——犯罪嫌疑人B,也经历了和你类似的心理斗争,他也坦白了。结果,你们两个都坦白了,都被判了3年。
~囚徒困境②~
我们用博弈论来分析一下这个博弈。首先,来寻找犯罪嫌疑人A的最优反应。当犯罪嫌疑人B选择“沉默”策略的时候,A选择“坦白”的收益最高,可以获得自由。如果B选择“坦白”策略的话,那么A也只有“坦白”才能获得相对较高的收益。也就是说,对于犯罪嫌疑人A来说,“坦白”策略强支配着“沉默”策略(表4-2)。
我们再来看看犯罪嫌疑人B的最优反应。同样的道理,对于B来说,“坦白”策略强支配着“沉默”策略(表4-3)。
由此可见,不管是犯罪嫌疑人A还是B,都是选择“坦白”可以获得较高的收益。在这个博弈中,局中人的最优反应,也就是纳什均衡只有一个,就是“坦白”对“坦白”的策略组合(表4-4)。
但是,通过分析收益表,也许有朋友感觉“坦白”对“坦白”的组合并不是最优反应。他们认为,如果犯罪嫌疑人A和B都保持沉默的话,双方的收益会更高一些。如果犯罪嫌疑人A和B是在同一间审讯室受审的话,没准儿他们俩可以趁警察不注意用眼神交流,达成“谁也不许招供”的攻守同盟。但是,警察不会蠢到在同一间审讯室中审讯他们,肯定会对犯罪嫌疑人进行单独审讯。这样一来,犯罪嫌疑人就无从知晓同伙会选择“坦白”还是“沉默”了,只能根据自己的经验进行推测,而且一般都会认为对方会选择更有利于他自己的策略。因为在这个博弈中,存在着强支配策略,而且这个策略还是最优反应,所以,最终两人都会选择对自己最为有利的策略,那就是“坦白”。
~囚徒困境③~
在博弈论中,局中人不会产生误解,他们会合理地思考问题,采取的行动都是为了让自己的收益最大化。一个局中人通过合理地分析能够认识到,对方不会选择“沉默”,肯定会“坦白”。在这种情况下,就不能期待“1年监禁”的惩罚了,相对较高的收益应该是“3年监禁”。如果两个人建立攻守联盟的话,双方都可以得到较高的收益,但是,在没有条件进行合谋的情况下,就只有选择背叛对方。结果,双方都只能得到较低的收益。这便是“囚徒困境”的原理。
下面我们再来仔细分析一下“囚徒困境”这个博弈的特征。表4-1是囚徒困境的收益表。表3-2是第三章中(第87页)介绍斗鸡博弈时使用的一个收益表。这两个收益表中的数字有相似的地方,但是策略的关系、收益的大小、纳什均衡的位置等都存在差异。在斗鸡博弈中,如果对方强硬地选择“直行”,那么自己妥协,选择“转向”的收益更大。但是,在囚徒困境的博弈中,不管对方选择“沉默”还是“坦白”,自己选择“坦白”的收益都相对较大。
我们再把两个收益表的数字简化一些,然后进行比较,两个博弈在结构上的差别就更加明显了(表4-5、表4-6)。
囚徒困境这样的博弈类型,在现实生活中经常能够见到。比如,企业之间的价格竞争,也属于囚徒困境的博弈。企业采取“高价格”策略就相当于“沉默”,而采取“低价格”策略就相当于“坦白”。最后,存在竞争的企业就陷入了竞相降价的囚徒困境之中。再有,国家与国家的军备竞赛也属于囚徒困境类型的博弈,削减军备相当于“沉默”,扩充军备相当于“坦白”。结果,竞争国之间就陷入了无休止的军备扩充竞赛之中。
注:①为了方便比较,我们将第87页的表3-2中“转向”和“直行”的顺序进行了调换。
水门事件中的“囚徒困境”
~囚徒困境的现实案例~
1972年6月,在美国总统大选期间,共和党候选人尼克松为了赢得连任,其竞选团队成员潜入了位于华盛顿水门大厦的民主党全国委员会总部办公室,准备安装窃听装置并偷拍文件,以窃取民主党的竞选策略等情报。然而,这些人被当场抓获。以此为开端,揭开了一个由白宫指挥、多名政府高官参与的情报窃取计划,这便是美国历史上著名的政治丑闻——“水门事件”。在对这个事件进行调查的过程中,就可以看到囚徒困境的身影。
据说,华盛顿联邦地方法院的法官塞尔伯特为了获得总统助手乔治·G.李迪和总统法律顾问约翰·迪安的协助,和他们俩分别做了交易。塞尔伯特分别告诉他们俩,只要他们愿意指证水门事件背后的黑幕,就可以减轻自己的罪行。一开始,李迪和迪安都不打算认罪,也不准备指证背后黑幕和对方。由于迪安对事件的参与度相对较低,于是塞尔伯特准备先以迪安为突破口,对他做了一些工作。首先,塞尔伯特告诉迪安,自己已经和李迪进行了密谈,谎称李迪已经准备当证人。然后,又假装向李迪的律师讲述李迪的打算。看到这些后迪安开始感到不安,据他判断,李迪很快就要坦白了,于是打算抢先一步坦白。
如果李迪和迪安始终保持沉默的话,事件背后的指使者就可能因为证据不足而逍遥法外。但是,担心对方会先坦白的迪安,结果比李迪更早地选择了“背叛”。于是,事件的整个黑幕都被揭发了出来,很多人被捕,尼克松总统也被迫辞职。
职员为什么会自愿义务加班?
~职员陷入的囚徒困境~
有的时候,职员为公司做了很多贡献,但不一定能得到应有的报酬和评价。就拿义务加班来说,虽然职员们都知道义务加班没有加班费,而且即使加班,也不一定能得到上司的褒奖。可是,为什么还是有那么多职员愿意义务加班呢?经过合理的思考,职员们都知道应该停止义务加班,马上回家。但是,义务加班总让人“欲罢不能”,这也是上班族的一种悲哀。其实,我们可以用囚徒困境的理论来解释为什么很多职员会不自觉地义务加班,而且陷入其中难以自拔。
A先生和B先生同在一家公司上班。如果A、B两个人都只做分内工作不加班的话,公司对两人的评价差不多,每月都只能拿固定的薪水。所以,两人的收益都是1。如果A或B有一方义务加班,那么加班的人获得的评价会比较高,薪水上涨,收益是5;而不加班的一方会得到较低的评价,又难以加薪,因此收益是-5。如果A、B两人都义务加班的话,虽然两人得到的评价都比较高,但没有差距,公司难以给两人都加薪,这样一来,辛苦的付出得不到薪水上的回报,因此两人的收益都是-3。在这种情况下,职员到底应该选择加班还是不加班呢?从收益表中我们可以看出,双方都加班是强支配策略,所以两人都会选择加班。结果,两个人的收益都是-3。虽然大家心里都清楚,谁也不加班,每个人的收益最高,但是又担心别人加班的话,会使自己的收益变低,因此就会陷入自愿加班的囚徒困境。
大家都加班,所以没有突出与落后的差别,因此,公司对大家的评价都差不多,不会给任何人加薪。所以,大家都是在为公司义务劳动。
三得利的销售战略
~价格设定的囚徒困境~
囚徒困境在经济领域也非常多见。比如,很多企业都陷入了价格竞争的囚徒困境。第一章中的例题1(第38页),快餐店的价格竞争博弈中就存在强支配策略,符合囚徒困境的结构。企业之间竞相降价,结果形成螺旋式通货紧缩,就是由囚徒困境引起的。
曾经也有企业以这种囚徒困境为武器,把握住了机遇,进而取得了巨大的成功。2008年,日本啤酒的销量统计数据显示,原来处于业界第四位的三得利成功超越了原来第三位的札幌啤酒。这是日本自1992年开始统计啤酒销量数据以来,三得利首次超越札幌啤酒。其中最大的原因就是三得利采取了“零售价不变”的策略。
当时,因为原油、原材料的价格高涨,食品企业的成本随之增加,为了确保利润,很多企业都想提高商品售价。但是,由于囚徒困境作怪,他们又不敢贸然涨价。
不过,如果各家公司串通一气,合谋共同涨价的话,大家都能获得不错的收益。所以,一些垄断行业的大企业开始合谋涨价的计划。拿啤酒行业来说,朝日、麒麟、札幌啤酒这几家大公司几乎同时提高了各自全部商品的价格。可就在这股涨价风潮中,三得利却采取了不同的策略。虽然三得利的部分商品也提高了零售价格,但是罐装啤酒却保持原来的价格不变。由于三得利忠实于博弈论的理论,选择了“价格不变”,结果受到了广大消费者的青睐,在市场份额上成功超越了札幌啤酒。不要忘记,广大消费者对于价格是非常敏感的。
从肮脏的选举中看囚徒困境
~第41届美国总统选举/政治世界的囚徒困境①~
在政治的世界中,我们也能看到囚徒困境的现实体现。在选举中,揭露、批判竞争对手人格上的问题、过去的污点等,会使其失去民众的信任。这种负面宣传战术,就是囚徒困境的一个典型例子。本来,总统候选人应该通过政策的论战,以治国政策的优劣分胜负。但是,在现实中,竞选者会通过打击民众对对手的信任程度,相对地提高对自己的信任,从而赢得选举。表面上看起来,这种行为十分愚蠢、不合常理,却是选举中常用的手段,不仅其他国家会用,日本人在选举的时候也常使用这一招。我们可以用囚徒困境来解释这种战术被频繁应用于选举中的背景。
1988年,迈克尔·杜卡基斯和乔治·布什竞选第41届美国总统,那次选战被称为“最为肮脏的选战”。杜卡基斯曾任马萨诸塞州州长,可谓履历耀眼,相比之下,布什的履历就没有那么显著的功绩了。然而,布什的选举阵营在电视台反复放出“杜卡基斯担任州长期间,曾经对波士顿湾的非法排放置之不理,造成了严重的环境污染”“杜卡基斯州长徇私枉法,让很多原本不该获得假释的犯人获得了假释,结果很多人又走上了抢劫、强奸的犯罪道路”等负面消息。这样的负面报道对群众造成了巨大的影响,让民众认为杜卡基斯在环境保护和犯罪问题上缺乏手腕,从而给杜卡基斯阵营带来了沉重的打击。到了选举的后期,杜卡基斯阵营也抛出了针对布什的负面宣传,可是内容大多是针对布什进行单纯的人身攻击,缺乏冲击性。双方都进行了负面宣传,使选战看起来很肮脏。只不过,杜卡基斯阵营的负面宣传抛出的时机太晚,而且内容也缺乏冲击性,于是,最终布什获得了选战的胜利。
~第41届美国总统选举/政治世界的囚徒困境②~
我们来详细分析一下那届总统选举中囚徒困境的构造。我们设定选举中有两个玩家,每个玩家可选择的战略有两个——“只论政策”和“负面宣传”。假设双方采取“只论政策”对“只论政策”的战略,那么双方可以各得5万张选票。如果政策论战非常活跃、充分,选民投票踊跃,那么最终双方累计可以获得10万张选票。如果自己选择“只论政策”战略,而对方采用“负面宣传”战略,那么选民对自己的信任度降低,自己只能获得1万张选票,而对方可以获得6万张选票。因为对方采取了“负面宣传”战略,关于政策的论战并不充分,所以选民投票热情也不饱满,最终只有7万人投票。如果双方都采用“负面宣传”战略,那么双方只能分别获得3万张选票,因为这样相互做负面宣传的选举,导致选民的投票热情低落,最终只有6万人投票。
在这样的设定中,我们来分析一下双方玩家应该采取的最合适的行动。其实,双方都应该采取“只论政策”的战略,让选民投票热情高涨,最终双方来分得那最多的10万张选票。至于胜负,就取决于玩家在论战中的水平了。可是,在现实中这是不可能的。根据囚徒困境的理论,双方都只能选择“负面宣传”,然后来瓜分那最少的6万张选票。如果还有一名候选人,而且他获得了4万张选票的话,那么前两名候选人就只有落选的份儿了。
一开始,杜卡基斯的理念是不攻击对手,对于布什的攻击,他本来打算不予理睬。可是,当他看到自己的支持率大幅下降之后,不得已之下只好也采用了“负面宣传”的战略。这是他在困境中不得已的选择。
黑手党成员为什么不会背叛组织?
~有些犯罪嫌疑人会“抗拒”到底~
在我们之前看到的囚徒困境模型中,局中人会为了自己的收益而出卖对方。但是,据一些刑事案件的律师和警官介绍,在审讯室中,犯罪嫌疑人出卖同伴的比例并不高。特别是那些跨国作案的犯罪嫌疑人,审讯起来难度很大,他们坦白的概率只有40%~60%。而且,如果是非常重大的案件,犯罪嫌疑人坦白的可能性会更低。如果犯罪嫌疑人属于某个犯罪组织,他们几乎不会坦白,更不会出卖组织。这是为什么呢?难道是囚徒困境的模型存在错误?
其实不然。这个问题的答案也很简单,上面说的案例与之前介绍的囚徒困境相比,局中人的收益存在很大的差异。我们先来看看囚徒困境的基本模型(表4-1),接下来再看看黑手党成员被捕后所陷入的囚徒困境模型(表4-7)。非常明显,黑手党成员的囚徒困境与基本的囚徒困境有很大的差别。其中非常关键的一点就是,作为黑手党成员,如果协助警察出卖组织的话,毫无疑问日后他肯定会被组织杀掉。黑手党成员心里都很清楚出卖组织的下场,因此他们拒绝与警察合作,会一直保持沉默。其实,这也是他们合理思考的结果,他们肯定会选择收益相对较高的策略。这并不是他们战胜了囚徒困境,而是“坦白”的代价太大,即要付出生命。
不过,对于这种情况,警察也不会束手无策。在盛行“司法交易”的美国,就有“证人保护计划”,该计划就是为了防止证人日后遭到报复而建立的证人保护体系。政府可以帮证人改变身份,让他在一个陌生的地方或国家隐秘地生活,以防他被犯罪组织找到。这样做的目的就是鼓励他们站出来做证,指证犯罪组织的罪行。
如果反复进行囚徒困境博弈,结果会怎样?
~反复进行的囚徒困境博弈~
这次,我们稍微改变一下视角。如果将囚徒困境的博弈反复进行,会得到什么样的结果呢?被捕的犯罪嫌疑人,如果只给他们一次选择的机会,即只进行一次囚徒困境博弈的话,他们当然容易选择坦白,出卖同伙。但是,如果告知他们可以反复进行多次选择,那么他们是否愿意相信同伙,而选择沉默呢?
非常遗憾的是,不管进行多少次囚徒困境的博弈,局中人都不会选择相信同伙。我们将表4-8中的博弈模型反复进行100次。我们将“沉默”换成了“协作”,“坦白”换成了“背叛”。如果两个人都背叛对方,并且相互背叛100次的话,那他们各自的最终收益只有1。但是,如果一直相互协作的话,那么每次的收益都是3。说到这里,也许你会认为,如果两个人从相互协作开始,也许他们会一直协作下去,一共协作100次,因为只有如此,两人的收益才最大。但是,事情并不会发展得那么顺利。
如果两个局中人的思维都很正常,会合理地进行思考,那么,他们肯定会把注意的焦点放在最后一次博弈上。最后一次,与选择协作相比,选择背叛的收益会更高一些。因此,第100次博弈的最优反应应当是背叛。那么,第99次博弈呢?对第99次博弈的思考和第100次一样,所以,局中人还是会选择背叛。之所以前面的博弈有可能选择协作,是因为在局中人心中怀有一种淡淡的期待,他们心里想的是:也许下一次对方会选择协作。但是,他们知道第100次博弈时,自己和对方确实都会选择背叛。于是,第99次博弈就没有选择协作的理由了。也就是说,第99次博弈时选择背叛是最优反应。那么,第98次博弈呢?这样一次一次往前推导,结果就是第一次博弈时就应该选择背叛。由此可见,单纯增加博弈的次数,人也是难以逃出囚徒困境的。
~无限反复的囚徒困境博弈~
这次,我们不限定囚徒困境反复的次数,让它无限反复下去,结果又会怎样呢?在有限次数的反复中,局中人可能会在最后一次选择背叛。那么,如果没有最后一次的话,局中人会不会一直选择协作呢?即使我们无法让囚徒困境无限反复下去,但只要不明确设定最后一次就可以了。会合理思考的局中人愿意选择协作,是因为他们心中期待对方在下一次博弈中也选择协作。
我们将囚徒困境的模型以“协作”对“协作”的策略组合重复三次,看看会出现什么样的结果。在这3次囚徒困境的博弈中,A和B的累计收益都是9。但是,A突然在第4次博弈中选择了“背叛”,那么,非常生气的B在第5次博弈中也会选择“背叛”。结果,从第5次博弈开始,双方就以“背叛”对“背叛”的策略组合持续博弈下去,一共进行了10次博弈之后,双方就不愿再继续了。此时,A的累计收益是20,B的累计收益是15。如果双方在10次博弈中都选择“协作”,那么他们各自的累计收益都是30。如果一方中途选择了“背叛”,那么下一次对方肯定也会选择“背叛”,接下来的博弈就只能是“背叛”对“背叛”了。这样一来,也许就没有第11次博弈了。但是,如果双方一直选择“协作”,不仅各自的收益更高,而且还会有第11次、12次博弈,并且一直持续下去。也就是说,长远来说,只追求眼前利益,中途选择“背叛”,并不能让自己获得更高的收益。
不过,还有一种情况是我们不得不考虑的,那就是中途选择“背叛”会让局中人获得特别高的收益。这种情况下,一开始一方为了让对方感到安心,会故意选择“协作”,等对方放松警惕的时候,突然选择“背叛”让自己获得巨大的收益。这种例子在商业活动中很常见。比如,商品采购方和供货方之间的博弈中,有些图谋不轨的采购方一开始会小批量采购货物,并按时支付货款,以骗取供货方的信任。结果,突然有一次大量订货,待收到货物之后便消失得无影无踪了。在商业欺诈案件中,经常能见到类似的例子。所以,和不太熟悉的客户进行交易时一定要小心,尤其是对方突然下大额订单的时候,更要提高警惕。
在不断反复的囚徒困境中获得胜利的策略——“以牙还牙”
~第一届囚徒困境大赛~
美国密歇根州州立大学有一位政治学教授——罗伯特·艾克斯罗德,他在博弈论方面的研究非常深入。关于囚徒困境,他曾经做过一个非常有趣的实验。罗伯特·艾克斯罗德组织了一场囚徒困境大赛,他想在众多策略中找出一种能够在不断重复的囚徒困境中获得胜利的策略。
他请社会学、经济学、数学等众多领域中对博弈论有研究的专家提出自己的制胜策略,最终一共收集到14组策略,再加上一组随机策略,参赛的总共有15组策略。其实,每一组策略就是一种规则或一种程序,它们会在不断重复的200次囚徒困境博弈中选择“协作”或者“背叛”。而每一次囚徒困境博弈就如下一页表4-9所示,是非常简单的囚徒困境模型。A、B相互协作的话,就各得3分;相互背叛的话,就各得1分。比赛结束后,按照累计收益得分为15组策略排名。
结果,这次比赛的第一名并不是什么复杂的策略,而是名为“Tit for Tat”的简单策略,翻译过来就是“以牙还牙”的策略。这个策略一开始选择“协作”,然后在下一次博弈中模仿对方上一次的策略。如果上次对方选择“背叛”,这次自己也选择“背叛”;上次对方选择“协作”,这次自己也选择“协作”,所以叫作“以牙还牙”的策略。
后来,罗伯特·艾克斯罗德还对得分高的策略与得分低的策略进行了对比。结果发现,得分高的策略有一个很明显的特征,那就是“自己不先背叛对方”。也就是说,自己绝不先于对方选择“背叛”,只有对方“背叛”我们之后,我们才能“背叛”对方。
~第二届囚徒困境大赛~
在得到前一小节介绍的结果之后,罗伯特·艾克斯罗德又举办了第二次囚徒困境大赛。这次一共征集到六个国家的62组策略。在学科领域上,除了参加第一届大赛的那些专业领域之外,还吸引了进化生物学、物理学、计算机学等专业的教授、专家参与。主办者罗伯特·艾克斯罗德向所有参赛者详细介绍了第一届大赛的情况和结果,在此基础上,让参赛者设计自己的策略。
结果,获得第二届大赛胜利的还是“以牙还牙”策略。当然,“以牙还牙”的策略能够胜出,可能跟主办方提供的这个囚徒困境模型的收益分配(5、3、1、0)存在很大的关系。如果把收益分值改动一下,也许其他策略就能获得更好的成绩。但是,这样的一个结果给我们带来了很多启发。
1.自己绝不能先“背叛”;
2.虽然自己不先“背叛”,但如果对方“背叛”,我们就应该马上采取“背叛”策略作为惩罚。如果对方改回“协作”策略的话,我们千万不要记仇,也应该迅速选择“协作”。虽然从感情上讲,我们总希望对方“加倍补偿”,但那样做并不能让自己获得更高的收益;
3.要努力向对方说明,选择“背叛”是不好的策略,会给双方带来损失,并积极采取行动。说话不要绕圈子,行动不要暧昧不明。
“以牙还牙”的策略并不能消除或者解决囚徒困境的难题,说到底它只不过是一种在囚徒困境中获得更高收益的思维模式。在我们现实社会中,人与人的交往就在不断重复着“协作”与“背叛”,因此,“以牙还牙”的思维模式也许能给我们的生活带来一些有益的启发。
相亲的必胜之法
~相亲中的囚徒困境①~
在序章中我们介绍了“相亲时绝对不能做的事”(第10~13页),在那个案例中,你和小王之间的博弈,和囚徒困境的模型具有相同的构造。
我们来看看你和小王的策略与收益的关系。如果你和小王相互在背后说对方的坏话,那么女生对你们俩的评价都会降低,以致你们俩的收益都是-2。如果你说了小王的坏话,但小王没有说你的坏话,那么女生就会对小王产生不好的印象,因此小王的收益是-3,而你的收益是1。反过来,你没有说小王的坏话,但小王说了你的坏话,那么你的收益是-3,小王的收益是1。如果你和小王都没有说对方的坏话,那么两人的收益都是0。
从这个收益表中,我们找一找双方的最优反应,结果会发现,两人都说对方的坏话是唯一的纳什均衡。两人只能选择说对方的坏话。
但是,如果两人都说对方的坏话,这场博弈就变成了消耗战。结果只能是两人都得到较低的收益。这个世界上好男人多的是,这里没有合适的,女生会去其他地方找。所以,相互说坏话的行为,损人也不利己。
刚才是把你和小王的博弈当作静态博弈来分析的,如果我们把这场博弈改成动态博弈的话,结果又会怎样呢?假设你先说了小王的坏话,那么小王就面临两种选择,一是不说你的坏话,二是说你的坏话。可是在这场博弈中,对他来说,说你的坏话是最佳选择。也就是说,小王陷入了一种囚徒困境。因此,要想从囚徒困境中摆脱出来,一定不能先说对方的坏话。
~相亲中的囚徒困境②~
接下来,我们将策略和收益稍微修改一下,让它变成另外一个博弈。策略是“赞美对方”和“不赞美对方”。如果双方相互赞美,则每个人的收益都是2(表4-10)。如果你赞美小王,但小王没有赞美你,那么你的收益是1,小王的收益是3。因为赞美别人的人,一般也会受到女性的好评,当然,被赞美的人更能给女性留下好印象,所以被赞美的人收益更高。如果双方都不去赞美对方,那么彼此的收益都是0。这样一来,这个博弈中就出现了两个纳什均衡。一是你“赞美”小王,但小王“不赞美”你;二是你“不赞美”小王,但小王“赞美”你。这样来改变博弈形式,至少可以将相亲的成功率稍微提高一点儿。
下面要考虑的问题就是到底该选哪个纳什均衡。最简单的方法就是在多次相亲活动中,两个人轮流赞美对方,这次我赞美你,下次换你赞美我,或者使用“相关策略”(请参见第78页)。举例来说,当你在会场门口等小王的时候,可以根据眼前经过的第一个人的衣服颜色来决定是否“赞美”小王。比如,经过的第一个人的衣服是红色的,那就“赞美”小王;如果衣服是蓝色的,就“不赞美”小王,而是让小王“赞美”自己。这是一种借助于偶然现象的决定法,免去了做决定的烦恼。也可以两个人私下做好约定,比如上次小王“赞美”了你,那么这次就该你“赞美”他了。当然,如果相亲只有这一次的话,这种约定不仅没有意义,也是难以成立的。不过,如果你和小王经常一起参加相亲活动,相信小王一定会欣然接受这样的约定,因为毕竟这能让他得到很大的好处。这也就是相亲活动中的必胜之法。
换句话说,你和同伴应该从相互说坏话的囚徒困境中摆脱出来,通过私下约定,在之后的相亲活动中轮流赞美对方,只有这样才能让双方都得到很好的收益。博弈论告诉我们,囚徒困境不能反复多次进行下去,肯定会有破裂的一天。而且我们没有办法强制博弈无限次地重复下去,那就只有改变博弈的形式,从而让局中人获得相对较高的收益。
社会性困境
~什么是社会性困境?~
在一个隆重的节日,政府组织了一场规模盛大的烟火大会。你和家人也想去现场观看,可是去到现场一看,你被现场的混乱状况震惊了。最佳的观看场所有人数限制,目前已经满员,而且现场有警员在维持秩序,外面的人一律不得入内。你心里会想:“里面有那么多人,再进去我们这几个人,就像一颗小石头丢进大海里,不会有什么影响吧。”于是你跟警员说:“就让我们一家人进去吧,也占不了多大地方。”可结果还是被拒之门外。如果放你们一家人进去,对你们来说是得到了很大的好处。对于已经在里面的人,影响也不是很大。虽然多了几个人,“会变得更拥挤”“发生踩踏事故的危险性增加了”因为总体人数众多,影响并不明显。像这样,对于个人来说合理的选择和全社会的最优策略相矛盾的情况,就叫作“社会性困境”。
其实,社会性困境在我们身边比比皆是。由于大量排放二氧化碳而造成的地球温室效应,就是一个典型的社会性困境的例子。大家都清楚,自己也好,他人也罢,都应该减少开车出行、节约用电,但是,由于每个人制造或排放的二氧化碳量非常少,大家对于自己给地球家园带来的坏影响并没有切实的感受。所以,虽然我们心里都清楚应该减少开车出行、节约用电,但仍总是给自己开脱,认为自己多开一天车、多用一度电也没什么大不了的。我们随意开车、用电,自己的收益很高,给地球造成的危害很小,这种诱惑是每个人都难以抵挡的。
对于个人来说,“使用”汽车、电器的策略,占有支配性的地位,所以,每个人都选择了“使用”。结果,地球的环境就越来越糟糕了。
为什么上司会偷懒不工作?
~社会性困境/搭便车的人①~
拿着高薪却不干活的上司、假装工作却在偷着玩游戏的同事、只有在开会发言时才表现出几分领袖气质的前辈……你的公司里是不是也存在这样的人?近些年来,这样的人似乎越来越多,这类人被称为“搭便车的人”。不仅公司里存在“搭便车的人”,社会上更是比比皆是。比如,不缴纳税金却享受公共服务的人、不规规矩矩地排队喜欢加塞的人,都属于“搭便车的人”。简单地说,就是让别人承担费用、让别人出劳力,自己坐享其成的人。职场中如果存在很多这样的人,会给公司造成很大的危害。为什么这么说呢?因为“搭便车的人”不仅不创造价值,还会制造出很多新的“搭便车的人”。那么,“搭便车的人”是如何在公司中不断增多的呢?
我们把公司中“搭便车的上司”和“其他职员”看作一个博弈中的两个局中人。我们来为这个博弈制作一张收益表。如果上司选择“干活”,其他职员也“干活”的话,那么职员的收益是2,上司的收益是3(职员的1.5倍)。如果双方都选择“不干活”的话,那么双方的收益都是0。如果上司“干活”而其他职员“不干活”,那么上司就必须把其他职员的工作都做了,在此情况下,上司要付出更多的劳动力,因此上司的收益是-5。对于其他职员来说,有上司替自己干活,当然轻松愉快,因此其他职员的收益是3。如果上司“不干活”而其他职员“干活”的话,那么上司落得轻松愉快,收益是5(公司中大多数人都在干活,所以收益比较大)。其他职员替上司把工作做了,所以职员的收益是1(不干活的只有上司一人,因此对整个公司来说损害比较小)。于是,这个博弈的收益表就如表4-11所示。从收益表中我们可以看出,对于上司来说,“不干活”这个策略处于支配地位,所以上司会选择这个策略。
~社会性困境/搭便车的人②~
对于上司来说,“不干活”是支配性策略,但是对于其他职员来说,“不干活”并非支配性策略。如果上司和职员都选择“不干活”,那估计这家公司用不了多久就会倒闭。如果上司“不干活”,那么职员必须干活。如果上司“干活”,那么对于职员来说,“不干活”的收益要高一点儿。
请注意,在这个博弈中,上司和职员的收益是存在差别的。先从上司的角度看,“干活”与“不干活”的收益差很大。因为公司中肯定是职员多、上司少,一名上司领导多名职员,所以上司“不干活”的时候收益高,而上司“干活”的时候收益极其低(5与-5的差别)。但是,职员“干活”与“不干活”的收益差就小很多(1和3的差别)。也就是说,如果公司中非得有一方“干活”的话,那么是职员“干活”的收益更高。再加上上司手中握有权力,所以,很多上司都会偷懒不干活。
但是,也有一些上司会做两倍于职员的工作。我们刚才看到的收益表是无能的上司的收益表,而能力强的上司的收益表又是另外一番景象。有能力的上司能够很好地推动下属工作,他们能让职员“干活”的收益比“不干活”的收益高,结果,就让“干活”成了职员的支配性策略。和这样的上司一起工作,职员也会得到很大的好处,“干活”成为他们的支配性策略。为了防止“搭便车的人”在公司内不断增多,公司需要推出一些“激励”方法,让管理者和普通职员都得到好处。由此可见,企业一味地用大棒去驱使员工干活,反倒得不到很好的效果,有的时候需要给他们几块糖果,才能让他们干劲十足。
利己主义者的未来
~社会性困境/共有地的悲剧~
话说有一个村子的村民在郊外发现了一块水草丰美的牧草地。于是,这块地成了这个村子的共有地,村民们都去那里放牛。整块牧草地总共可以喂养100头牛。村里共有10个村民,每人有10头牛,因此这块共有地刚好够喂村里所有的牛,这样就达到了一种均衡状态。吃饱了草的牛体格健壮,每头可以卖到100万日元。可是,如果增加1头牛,平均每头牛吃的草就会减少,于是体重下降,牛的售价也随之减少1万日元。也就是说,共有地中每增加一头牛,每头牛的售价就会减少1万日元。那么,在这个案例中,是维持100头牛的数量不变好呢,还是宁可让每头牛的单价下降也要增加牛的数量?
如果维持现状的话,对于每一位村民来说,他所拥有的牛的价值是100万日元×10头=1000万日元。如果增加1头牛,他所拥有的牛的价值就变成99万日元×11头=1089万日元。由此看来,增加牛的数量更加划算。
村民通过合理的思考,认为增加自己饲养的牛的数量,对自己更有好处。
看到有人增加饲养的牛的数量之后,其他村民都纷纷效仿。10个村民每人增加了1头牛。结果,每个村民的牛的总价值为90万日元×11头=990万日元。而维持100头牛的时候,每个村民所拥有的牛的总价值是1000万日元。由此可见,增加牛的数量之后,每个村民的牛的总价值反而缩水了。第一个增加牛的数量的村民一看这种情况,就着急了,赶紧又增加了1头牛,这样一来,他的牛的总价值就变成了89万日元×12头=1068万日元。之后,其他村民也纷纷效仿,结果牧草地就被超出负荷的牛啃光了,变成了沙地,谁也无法继续养牛了。
这种博弈模型被称为“共有地的悲剧”。在一个集体中,如果所有人能相互协调后再采取行动,那么可以保证全体人员都受益。但是如果大家都抱有利己主义思想,只为追求个人利益而采取行动的话,那么最终所有人都会无利可图。
注:①出自漫画《进击的巨人》。
什么是帕累托最优?
~囚徒困境中的帕累托最优①~
在博弈论中,还有“帕累托支配”和“帕累托最优”两个术语。它们是很重要的概念,但也比较复杂。在这里,我想对这两个概念稍微多讲几句。
在囚徒困境的博弈中,两个局中人“坦白”对“坦白”的策略组合是纳什均衡,也是两个人的最优反应。可是,采取“坦白”对“坦白”的策略组合,双方的收益都只有1。而如果采取“沉默”对“沉默”的策略组合,则两个局中人的收益都是3,明显要高于“坦白”对“坦白”的策略组合。这种情况下,我们就称“沉默”对“沉默”的策略组合帕累托支配着“坦白”对“坦白”的策略组合。
如果没有哪个策略组合可以超越帕累托支配策略组合Z,那么,策略组合Z就叫作帕累托最优,或者叫作帕累托效率。换句话说,就是“为了让某人的状态变得更好,就不得不牺牲其他人的状态”。
虽然帕累托支配和帕累托效率说的是一回事,但这两种说法都容易招致误解。帕累托是著名经济学家,所以有关帕累托的一些术语在经济领域应用比较多。一提到“最优”,我们就能想到“最好”“最合适”等概念,但是,帕累托最优并不是对所有参与者来说都是最好的选择。虽然名叫帕累托最优,但并不是对其他所有策略都处于帕累托支配地位。另外,帕累托最优也叫作帕累托效率,不过,这里的“效率”和“生产效率”“劳动效率”等“效率”存在较大的差异。帕累托效率主要是在考虑个人的需求、利益时使用的工具。
注:①日语中“调色盘”和“帕累托”同音。
~囚徒困境中的帕累托最优②~
下面我们一起来仔细分析一下囚徒困境中的帕累托最优。在囚徒困境的博弈中,“沉默”对“沉默”的策略组合支配着“坦白”对“坦白”的策略组合。那么,“沉默”对“沉默”的策略组合是不是帕累托最优呢?我们试着将“沉默”对“沉默”的策略组合转换成其他策略组合,结果发现,转换之后至少有一个局中人的收益下降了。比如,将“沉默”对“沉默”转换成“沉默”对“坦白”的时候,局中人B的收益从3变成了5,是变好了,可是局中人A的收益从3变成了0,变差了(牺牲了A的利益)。同样的道理,如果将“沉默”对“沉默”转换成“坦白”对“沉默”,那么这次B的收益就会变差。由此可见,“沉默”对“沉默”的策略组合是帕累托最优。
再来分析一下“沉默”对“坦白”的策略组合。如果将“沉默”对“坦白”的策略组合转换成“沉默”对“沉默”的策略组合,那么A的收益从0变成了3,是变好了,可是B的收益从5变成了3,是变差了。如果转换成“坦白”对“沉默”,那么A的收益从0变成了5,而B的收益则从5变成了0。如果转换成“坦白”对“坦白”的话,A的收益从0变成了1,而B的收益从5变成了1。换句话说,“沉默”对“坦白”的策略组合,可以说是“为了让某人的状态变得更好,就不得不牺牲其他人的状态”。也就是说,“沉默”对“坦白”的策略组合也是帕累托最优。同样的道理,“坦白”对“沉默”的策略组合如果转换成其他策略组合的话,也会牺牲某人的利益,因此这个策略组合也是帕累托最优。
综上所述,在囚徒困境的博弈中存在三个帕累托最优,分别是“沉默”对“沉默”的策略组合、“坦白”对“沉默”的策略组合以及“沉默”对“坦白”的策略组合。说到这里,可能大家已经对“最优”感到困惑了,怎么会同时有好几个最优呢?在博弈的世界里,最优确实不一定只有一个。
~囚徒困境中的帕累托最优③~
我们来看一个具体的例子。有一位祖父给了两个孙子1万日元,叫他们自己去分这笔钱。如果兄弟二人平均分配,那就是a=(5000日元,5000日元)。括号里左边是哥哥分到的钱,右边是弟弟分到的钱。如果哥哥恃强凌弱,宣布自己独吞那1万日元的话,分配方案就是b=(1万日元,0日元)。如果哥哥心疼弟弟,知道弟弟缺钱,想多分他一点儿,那么分配方案就是c=(4000日元,6000日元)。上述这些分配方案,都是帕累托最优。帕累托最优中没有平等的概念。因此,方案b也是帕累托最优。但是,如果这样分配,z=(4000日元,4000日元),1万日元没有分完,那这种分配方案就不是帕累托最优。兄弟二人分1万日元,假设哥哥分得的钱用y表示,弟弟分得的钱用x表示,那么,只要符合如下等式的分配方案,就都可以称为帕累托最优。
y=1万日元-x
帕累托最优(帕累托效率)经常被人与纳什均衡混为一谈。其实二者存在较大差别。简单地说,帕累托最优是最大限度地发挥整体效益的状态,而纳什均衡是个人满意度最大的状态。在有些博弈中,帕累托最优和纳什均衡是一致的,但也有些博弈中,两者是不一致的,比如囚徒困境的博弈。在下一小节中,我就详细讲一讲帕累托最优和纳什均衡的差别。
帕累托最优与纳什均衡
~两者一致的案例与两者不一致的案例~
假设有一对情侣A和B,他们住在一起。星期六,他们都不用上班,很想出去玩,可是天公不作美,偏偏下起了雨。虽然两人都想出去玩,可是下雨天出去的话,也玩不开心。如果一个人单独出去玩,收益是-3。如果一个人单独在家的话,收益就是1。不过,只要两个人在一起,不管出去玩还是宅在家,都会很开心,所以两人同时行动的时候,收益值要在原来的基础上再加3。
我们来分析一下这个博弈中的纳什均衡和帕累托最优。局中人是A和B,策略是“出去玩”和“宅在家”。通过收益表我们可以看出,这个博弈的纳什均衡是“宅在家”对“宅在家”的策略组合。因为外面下雨,所以两人一起宅在家里要比出去玩开心些。在这种情况下,“宅在家”对“宅在家”的策略组合也是帕累托最优。因为不管转换成其他哪种策略组合,都有人的收益会降低。
第二天星期日,天晴了。单独出去玩的收益是3,单独宅在家的收益是1。如果两人同时行动,会更开心,所以收益会在单独行动收益的基础上再加3。这种情况下,纳什均衡就有两个,分别是“出去玩”对“出去玩”的策略组合和“宅在家”对“宅在家”的策略组合。不过,“出去玩”对“出去玩”的策略组合帕累托支配着“宅在家”对“宅在家”的策略组合。因此,帕累托最优只有“出去玩”对“出去玩”的策略组合。
通过前面的例子,我们发现,在有些博弈中,纳什均衡和帕累托最优是一致的,而在有些博弈中,两者是不同的。不仅如此,有些博弈中虽然存在多个纳什均衡,但帕累托最优只有一个。
第四章 总结
●在囚徒困境中,局中人相互协作可以获得较高的收益,但是,局中人会合理地考虑自己的利益,放弃协作而选择背叛,以追求个人更高的收益。
●在不断重复的囚徒困境中,自己不应该先选择“背叛”,但当对方选择“背叛”之后,我们应该马上“背叛”。而当对方回心转意,选择“协作”之后,我们应该摒弃前嫌,也选择“协作”。
●为了减少公司中“搭便车的人”,公司应该制定有效的“激励”制度。
●“共有地的悲剧”和“进击的共有地”没有任何关系。