一分钟看懂博弈论——纳什均衡

2024-05-06 12:45

1. 一分钟看懂博弈论——纳什均衡

最后我能给你解释道德绑架为什么让你反感，别觉得是学术你就不看了。
  
  囚徒困境 
  
 两个囚徒被抓了，警察为了让他们坦白交代，分别提审两个人，这里分三种情况
  
 1、两个人都不交代，没有证据，直接无罪释放
  
 2、其中一个人交代了，一个人没交代，交代了的因为戴罪立功，判1年，没交代的判9年
  
 3、两个人都交代，每个人判6年
  
 两个人没有串供的机会，所以只能自行判断，假设每个人交代和不交代都占50%，则
  
 第一个人没说的时候判刑的危险（后果*概率）50%*0+50%*9=4.5
  
 第一个人交代了的时候判刑的危险（后果*概率）50%*1+50%*6=3.5
  
 所以第一个人的最优策略是：交代，同理可证第二个人的最优策略一样是交代
  
 所以两个人都交代是最符合从个人出发的最佳策略
  
 但是如果从整体出发，两个人都交代是四个选择里面最差的，因为两个人一共要判12年，哪怕是一个人交代一个人没交代，都只需要两个人一共判10年
  
 这就是纳什均衡：每个人都从个人最佳选择的角度出发，最终集体的利益受损。
  
  有人说看不懂这个推导，那么你直接记住这句话即可：聪明人在一块，因为自私，选出一个傻子方案。 
  
 以上是为了解释清楚举了一个极端的例子，实际上根据条件不一样，每个人都从个人最佳选择的角度出发，最终不一定导致集体的选择最差，但是一定不是最好。
  
  对于纳什均衡的应用： 
  
 1、你的对手和队友中一定有蠢货（也可能是受情绪影响而做出愚蠢的选择），这导致任何精确的算计都不精确
  
 2、但是采取任何博弈的时候，都应该假定对手是聪明人和老司机。
  
 3、一个社会和一个整体不美好，不是因为某一些人坏或者某一些人傻，而是因为所有聪明人按照纳什均衡的博弈的结果。
  
 4、博弈的根据是给对方一个可以相信的美好的未来。
  
 5、保持友善，因为没有一个必胜的策略。
  
 6、当你有中等能力的时候，不要做任何博弈，直接翻牌。（这一点有严谨的证明，公式太多，写了你也不爱看）
  
 7、多次博弈的过程中，双方或者多方会突破纳什均衡，这一突破，往往会形成道德——欺诈游戏中那个傻女猪脚完成了凑齐红苹果的伟大壮举——突破纳什均衡是让双方共赢的结果
  
 最后这一点多解释一下，如果双方都进去了以后，再出来，又一起作案，这次提前约定好，只要是被抓住，我们都不说，不就都无罪释放了吗？结果双方突破了纳什均衡——提前约束好的行为，就是道德（举的例子有点反，明白意思就好）。
  
 所以为什么很多人现在感觉到了道德绑架：这跟我们提前说好的不一样啊，凭什么我的道德让我判9年你判1年啊。
  
 
  
  
 明白了这些，我们看社会很多现象瞬间就会有不一样的视角，希望对你有所帮助

一分钟看懂博弈论——纳什均衡

2. 小白也懂博弈论：纳什均衡

 原文发布于自己的博客平台【 http://www.jetchen.cn/nash-equilibrium/ 】
   具有竞争或对抗性质的行为称为博弈行为，并且博弈理论在经济学、国际关系、军事战略等很多领域都有广泛的应用，其中以纳什均衡为代表的非合作性博弈理论在日常中最为常用。
   在很多场景下，比如玩德州扑克等游戏时，虽然有些时候选择的策略并不一定是全局的最优解，但却是相对于其他人的策略而做出的最优解，即每个人都是对自己最有利的解决方案，我们将其称为为 纳什均衡 。
   纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是博弈论的一个重要策略组合，以约翰·纳什命名。
                                           再解释一下，所谓纳什均衡，指的是参与者的一种策略组合，在该策略上，任何参与人单独改变策略都不会得到好处，即 每个人的策略都是对其他人的策略的最优反应 。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。
   枯燥的描述很难理解，下面使用几个案例来理解下。
   背景：有两个囚犯A和B，犯事儿进去了，然后警官对其分开审讯，所以A和B是没有机会进行串供的
   奖惩：如果双双招供，则各判2年，如果双双不招供，则各判1年，如果一个招供一个不招供，则招供的人立即释放，不招供的人判刑十年
   结果：最后囚犯A和B都会选择招供，所以各判2年，这个便是此时的纳什均衡。
   但是明明双双不招供才是最优解啊，其实不然，回头再看一下概念，纳什均衡其实并不是全局的最优解，而是每个人相对于每个人的策略而做出的最佳策略，下面来解释下。
   我们来建立一个数学模型，使用 -2、-1、0、-10 来形容上面的奖惩，见下面的分析图。
    A的心路历程： 
   所以，不管B招不招供，A只要招供了，对A而言是最优的策略。
                                           同理，对于B的心路历程也相似，B也会选择招供：
                                           所以最终的结果是A和B都选择了招供。
    即此时的纳什均衡点为：A和B都招供。 
   综述，敲黑板，纳什均衡的前提是： 决策圈中的个体是独立，不合作，不横向沟通的 
   背景：有两只猪，一只是大猪，另一只是小猪，然后有一个食槽，里面会有食物落下，但是需要去远处按一下按钮，每次按一下按钮，食槽中便会补满食物。但是呢，在按按钮的来回路上，是需要消耗一定的能量的。
   奖惩：跑过去按一下按钮再跑回来吃食物，会消耗一些能量，记为 -2，每次食槽中补满食物，总食物量为 10份，大猪先吃的话能吃到 9 份，小猪先吃的话，大猪能吃到 6 份，一起吃的话，大猪能吃到 7 份
   结果：大猪会选择去按按钮，而小猪会选择不去按按钮，即在原地等着。
    小猪心路历程： 
   所以，不管大猪怎么样，小猪都会选择在原地等待。
                                            大猪心路历程： 
   所以，表面上看，大猪的决策是受到小猪的决策所影响的，但是分析小猪的心路历程得知，小猪是不会去按按钮的，那么大猪最后的决策还是会选择去按按钮，这样大猪的收益才会最大化。
                                           所以综上，最终结果是大猪去按按钮，而小猪在原地等待着。
    即此时的纳什均衡点为：大猪去，小猪不去。 
    在每次参与者都只有有限种策略选择并且允许混合策略的前提下，纳什均衡是一定存在的。 
   比如选举、群体之间的利益竞争、会议中的法案竞争等，是必然存在纳什均衡的。
   以公司间的价格战为例：如果对方一直降价，那我方继续降价必然会出现亏本买卖，然而如果不降价，也会出现失去市场的情况，损失更大，但如果对方不降价，我方更要降价才能谋得一丝丝利益，所以只要出现价格战，必然会两败俱伤，这是纳什均衡体现的必然结局。所以要改变这种结局，双方必须坐下来谈判寻求新的利益评估分摊方案，从而改变原先的利益格局（比如当年京东和当当的一场价格战，最终以双方各占某一方面的主市场从而获得新的利益分割方案）。
    纳什均衡是基于非合作博弈论的平衡不动点解 
   例如上文的囚徒困境问题，如果两个囚徒是有合作的，则必然不存在纳什均衡点。
   所以，在现实生活中，纳什均衡这一博弈是很重要但是也是很有限的，因为在很多情况下，即使知道平衡不动点必然存在，但是往往却很难找到。
    纳什均衡（这一非合作博弈论模型）仅仅是突破了博弈论中的一个局限 
   因为在社会这一庞大的博弈环境下，还会掺杂着复杂的经济行为，虽然社会中的大家并非是集体合作性的，但在这种庞大的非合作性对象中，纳什均衡点是几乎不可能找到的。
    纳什均衡属于NP问题    （摘自 wik i上面的一段话，暂时看不懂但却觉得很有道理）纳什均衡属于NP问题，Daskalakis 证明它属于 NP 问题的一个子集，不是通常认为的 NP-完全问题，而是 PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。

3. 博弈论之纳什均衡

纳什均衡的定义就是：在任何竞争或冲突中，如果各方不愿或者无法沟通，就至少会有一个纳什陷阱等着请君入瓮。
  
 比如那两个囚徒他没法沟通，他们俩在不同的房间里边，这样就阻断了他们的沟通，就一定会有一个纳什陷阱在等着：双方均已选定一种策略，任意一方独自改变策略将会使情形恶化。
  
 假如这两个人是惯犯，在进去之前都已经商量好了，说如果抓住的话打死也不承认，这样的话咱俩都是轻刑。但是如果有任何一方改变事先约定，都会使得情形变得更糟糕，这时候他们就进入到纳什陷阱当中。
  
 在各方都选择了同一策略的情形下，没有一方能够通过独自改变策略而获益，此时的策略搭配和后续结果，就构成了纳什均衡。
  
 就比如说有一方招了，然后你说我坚守，我不招。你不招，你判十年；而对方招了，对方获益，零年。这时候就是陷入纳什陷阱当中，同时达成了一个四四的纳什均衡，没有人有动力再去改变。
  
  
 
  
  
 在生活当中，经常会出现各式各样的纳什陷阱，还包括离婚。有生活经验的人会知道，离婚这件事发展到最后往往就是争财产。一开始大家都不这么认为，开始离婚的时候大家都会说，钱我不在乎，都给你都行，我走了。
  
 
  
  
 结果发现对方真的都拿走了，就开始生气，说凭什么你这样对我，我不蒸馒头争口气！然后就开始打官司，不断地折腾。最后你会发现大量的钱用作了律师费，用作了消耗的社会成本。原因就是双方各不退让，不愿意妥协。
  
 一开始的姿态都很好，但是由于一方做的让对方不满意，激起了对方的恶意，开始大量地争执，最后陷入到一个纳什均衡当中。

博弈论之纳什均衡

4. 博弈论——纳什均衡

纳什均衡,Nash equilibrium,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。——百度百科。
  
 简单地说，纳什均衡就是别人采取那样的策略，我不得不采取这样的策略，在别人不改变策略的情况下，我也无法采取别的策略，如如形成了一种“非合作博弈均衡”。
  
 你可能听说过这个故事。老师让全班所有的同学想一个0到100之间的整数，说谁想的数字最接近全班平均值的2/3,谁就获胜。那么聪明的学生就会这么想：假设如果全班的同学都随机选了一个数字，那么平均值就是50，我的答案应该是50的2/3，也就是33；如果再进一步想，如果大部分的同学都足够聪明，想的也是33，那么平均值就变成了33，那么更聪明的我答案就要变成22。但是如果全班的同学也足够聪明，想到了22，那么我的答案就是22/3*2=14。所以假定所有的学生都会这一样一步一步的推理，最后得出的答案就是0。而事实上没有哪个班的学生能聪明到这个程度，也就是给那个最极端的答案0.
  
 生活中的大多数人也不会聪明到那个程度，去做那个极端的推理并执行。但是博弈论可以帮助我们理解社会上一个看似复杂又矛盾的现象。比如为中小学生“减负”的呼声一直没断过，中学生作业多、任务重已成为一个事实，很多学生晚上要花3个小时甚至4个小时做作业，到了晚上11点、12点还不能睡觉，周末的各学科的练习卷会有十几二十份，根本没有玩的时间。但是与此同时，在周末或者晚上很多家长又把孩子送出去加各种各样的兴趣班、辅导班。这不是让孩子的负担更重了吗？难道大多数的家长不知道孩子的学业已经很沉重了吗？
  
 难道学校的想布置这么多作业吗？难道学习喜欢做作业到深夜吗？难道家长喜欢晚上周末不怨其烦的送孩子去各种班吗？答案当然都是不是。有人这些都是被逼的。不错，其实这是三个“纳什均衡”。
  
 先看学校的老师为什么要布置这么多的作业。那是因为别的学校也布置了那么多的作业。如果自己的学科不布置那么多的作业，那么学生的各项学科技能（考试成绩）将落后于同一地区的兄弟学校。这是老师不远看到的，也是学校领导不愿意遇见的，很多时候也是家长的意愿，即想看到我的孩子有个好成绩。
  
 再看学生为什么不得不完成那么多的作业。其实也是被逼的。同班同学都完成了，为什么你完不成？这是老师的责问。同班同学都完成了，为什么我完不成？这是自我能力的怀疑。所以孩子们都孜孜不倦地完成了一天数个小时的作业量。完不成的孩子，要么已经完成了自我否定，破罐子破摔，成了老师、家长眼中的“差生”；要么鼓起勇气对抗到底，成了老师、家长眼中的“顽劣”、熊孩子。
  
 最后家长为什么要送孩子去各种兴趣班、辅导班。那是因为别的家长也把孩子送过去了。别家的孩子去某某钢琴班，考了个十级被某学校提前录取了；那家的孩子去了舞蹈班拿了个金奖，都去北京演出了；哪家的孩子去了哪个辅导班，成绩一下子提高了30分，上次考试都进了班级前10名。所以没有哪个家长是做得住的，不管孩子有多少兴趣，有没有时间玩自己的游戏，都得送过去。
  
 理解了博弈论中“纳什均衡”，可以帮助我们懂得人生中的很多无奈。我想这也是自我修养的一种提升。

5. 博弈论(2)—纳什均衡

 如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说，注意头像和使用头像一致。
                                           又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。 在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作 最佳应对 。 如果两个博弈的局中人的策略组合分别构成各自的 最佳应对 ，那么这个组合就被定义为纳什均衡。
   在给出纳什均衡解释前，我们先得把一个概念说清楚最佳应对。
   纳什均衡是刻画局势，如果一个局势下，每个局中人的策略都是相对其他局中人当前策略的最佳对应，则称该局势是一个 纳什均衡 
   如果一个局中人的某个策略对其他局中人的任何策略都是最佳对应，那么这个策略就是该局中人的 占优策略 
                                           在纳什均衡下，局中人没有人会想要改变改变，因为谁改变谁就可能在博弈中处于不利地位。
   首先我们来看一看在囚徒困境中纳什均衡，对于囚徒困境的问题的纳什均衡是 双方都坦白 ，属于占优策略
   其实不管局中人 2 是抗拒还是坦白，对于局中人的最佳应对都是坦白。从而可以看出纳什均衡点并不一定是整体的最优解。有人可能会说那么为什么不是对于两个人都有利的(抗拒，抗拒)呢，这里最佳应对是无论对手进行策略对自己都是最佳策略，在最后 maxmin 时候就更会了解为什么他们会做出坦白选择，这是一个规避风险的策略。
   
   这就是纯策略纳什均衡，混合策略下纳什均衡，女生看舞蹈概率 p 看足球的概率就是 1 - p，男生看舞蹈概率 q 看足球的概率就是 1 - q
   妻子随机性的目的: 使丈夫无机可乘，不管丈夫选择哪个策略，其期望收益均相同
     
     
   当丈夫给出概率分布不会让妻子在看足球和看，关于   以我对丈夫了解他更喜欢看足球，
   局中人 1 的策略选择分布记为   , 局中人 2 的策略选择分布记为  。假设局中人 1 的策略分布不变，局中人 2 策略选择的效用为
     
     
   剪刀—石头—布的混合 纳什均衡态 
   任何有限博弈(参与人与策略数目均为有限)都至少存在一个纳什均衡，这个均衡可能是纯策略纳什均衡(例如剪刀-石头-布)，也可能是混合策略均衡，纳什均衡的多重性(例如性别之战)

博弈论(2)—纳什均衡

6. 为什么说纳什均衡是博弈分析中最重要的概念

7. 纳什博弈论

　　纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。
　　纳什均衡是一种策略组合，使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。
　　假设有n个局中人参与博弈，如果某情况下无一参与者可以独自行动而增加收益（即为了自身利益的最大化，没有任何单独的一方愿意改变其策略的[1]  ），则此策略组合被称为纳什均衡。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡，从实质上说，是一种非合作博弈状态。
　　纳什均衡达成时，并不意味着博弈双方都处于不动的状态，在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态，需要注意的是，只有最优策略才可以达成纳什均衡，严格劣势策略不可能成为最佳对策，而弱优势和弱劣势策略是有可能达成纳什均衡的。在一个博弈中可能有一个以上的纳什均衡，而囚徒困境中有且只有一个纳什均衡。

纳什博弈论

8. 纳什均衡与非合作博弈论是同个概念吗

1）非合作博弈
非合作博弈是博弈的一种情况.
博弈主要可以分为合作博弈和非合作博弈.合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈.
说白了就是要看参与博弈的人之间有没有互相达成某种协议,例如有A、B、C三人,其中A和B达成了某种联盟,一起去对抗C,那么这个就叫做合作博弈；如果A、B、C三人都是以自己为一个个体,没有和其他人约定而最终独立完成博弈,那就叫做非合作博弈.
2）纳什均衡
而纳什均衡是在非合作博弈条件下,可能会形成的一种均衡状态.
他的思想是当参与人选定的策略组成纳什均衡后,就会形成一个平衡的局面.在这个平衡的局面中,任何一个参与人单方面地改变自己的策略,只能是自己的收益下降（或不变）,绝不可能使自己的收益增加.这样,在纳什均衡下构成的这种局势让每个参与人都不敢轻举妄动,因而形成了这个平衡.
并不是所有的非合作博弈都有纳什均衡,有可能没有均衡状态；而有纳什均衡存在的博弈也不见得就只有一个均衡,也可能存在两个或者多个均衡.