“零和博弈”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第146行: 第146行:
  
 
*[[正和博弈 Positive-sum game]]
 
*[[正和博弈 Positive-sum game]]
 +
 
{{colend}}
 
{{colend}}
  

2020年12月5日 (六) 19:01的版本

此词条暂由水流心不竞初译,翻译字数共1421,带来阅读不便,请见谅。

此词条暂由Miyasaki审校

 --Miyasaki讨论)此词条存在重复部分,有些重复段落不能确切定位,暂搁置。

模板:Distinguish

模板:Other uses

博弈论和经济理论中, 零和博弈Zero-sum game是对某种情形的一种数学描述,在这种情形中每个参与者的效用增减与其他参与者的效用的增减互相平衡。如果将参与者的总收益加起来,再减去总损失,则它们之和为零。因此,如果公认蛋糕每一部分都具有同等价值,那么切蛋糕就是一个零和游戏,切一块蛋糕会减少给其他人的蛋糕量,同时也会增加给那个接受者的蛋糕量。

相比之下,非零和Non-zero-sum描述了另一种情形,在这种情形中,相互作用的各方的总计收益和损失可能小于或大于零。零和博弈也称为严格竞争博弈,而非零和博弈可以是竞争博弈,也可以是非竞争博弈。零和博弈通常是用极大极小定理来解决的,这个定理与线性规划二元性[1]密切相关。

许多人对将情况视为零和有认知偏差,称为零和偏差

零和博弈是常数和博弈的一个具体例子,其中每个结果的和总是为零。这种游戏是分配性的,而不是综合性的; 良好的谈判无法扩大这块蛋糕。

定义

模板:Payoff matrix

零和属性(如果一个获得,另一个失败)意味着零和情况的任何结果都是帕累托最优。一般来说,所有策略都是帕累托最优的博弈称为冲突博弈.[2]

零和博弈是恒定和博弈的特定示例,其中每个结果的总和始终为零。这种游戏是分布式的,而不是集成的;不能通过良好的谈判来扩大派。

参与者可以共同获益或共同受苦的情况称为 非零和。因此,如果一个香蕉过剩的国家与另一个国家进行交易以换取其过剩的苹果,这两个国家都从交易中受益,那么这个国家就处于一种非零和情况。其他非零和博弈是这样一种博弈,在这种博弈中,参与者的得与失之和有时大于或小于开始时的水平。

在零和博弈中,帕累托最优收益的概念引出了一个广义的相对自私的理性标准,即惩罚对手的标准,在这个标准中,双方总是以对自己较有利的代价来寻求最小化对手的收益,而不是偏好多于少。惩罚对手标准可以同时用在零和博弈(例如战争游戏,国际象棋)和非零和博弈(例如:合并选择游戏)[3]

对于双人有限零和博弈来说, 纳什均衡点Nash equilibrium、极大极小和极大的不同对策理论解概念都给出了相同的解。如果允许参与者采用混合策略,博弈中总是存在平衡。


方案

对于两人有限零和对策,Nash均衡, 最小最大 最大最小的不同的博弈论解概念都给出了相同的解。如果允许玩家玩一个混合策略,游戏总是有一个平衡点。

Example 举例

A zero-sum game
模板:Diagonal split header 模板:Blue 模板:Blue 模板:Blue
模板:Red 模板:Diagonal split header 模板:Diagonal split header 模板:Diagonal split header
模板:Red 模板:Diagonal split header 模板:Diagonal split header 模板:Diagonal split header

一场博弈的收益矩阵是一种方便的表示形式。让我们以图中右上方的两人零和博弈为例来考虑一下。

进行的顺序如下: 第一个玩家(红色)秘密地在两个动作1或2中选择一个; 第二个玩家(蓝色)不知道第一个玩家的选择,秘密地在三个动作 a、 b 或 c 中选择一个,然后,选择公布,每个玩家的总分受到这些选择的收益的影响。

例如: 玩家红选择操作2,玩家蓝选择操作B。当回报被分配时,红色获得20点,蓝色失去20点。

在这个例子中,两个玩家都知道收益矩阵,并试图最大化他们的分数。红队的理由如下: “在第二场比赛中,我可能输掉20分,只能赢20分,而在第一场比赛中,我只能输掉10分,但可以赢得30分,所以第一场比赛看起来要好得多。”根据类似的推理,蓝方会选择动作 c。如果两个玩家都采取这些动作,红方会赢得20分。如果蓝色预料到红色的推理和行动1的选择,蓝色可能会选择行动 b,从而赢得10点。如果红色,反过来,预测到这个计策,并选择行动2,这将为红色赢得20点。

Émile BorelJohn von Neumann的基本见解是概率提供了一种解决这个难题的方法。这两个玩家没有决定要采取的明确行动,而是给他们各自的行动分配概率,然后使用一个随机装置,根据这些概率,为他们选择一个行动。每个玩家计算概率,以使最大预期点损失最小化,与对手的策略无关。这就导致了一个线性规划问题,每个参与者的最优策略。这种极大极小方法可以计算所有两人零和博弈的可能最优策略。 |}

对于上面给出的示例,事实证明红色应该选择概率为1的动作为模板:Sfrac,动作2的可能性为{sfrac|3|7}},蓝色应将概率0,模板:Sfrac, 和模板:Sfrac分配给A,B和C这三个动作。红色将赢得平均每场比赛的分数。

Solving 解答

如果游戏矩阵不具备所有的正元素,只要在每个元素上加一个足够大的常数,使得它们都是正的。这个常数会增加游戏的价值,对均衡的混合策略没有影响。

一个两人零和博弈的纳什均衡可以通过求解一个线性规划问题得到。假设一个零和博弈有一个支付矩阵M,其中元素M模板:Sub是当最小化的玩家选择纯策略 i而最大化的玩家选择纯策略 j 时获得的收益(即,试图最小化收益的玩家选择行,而试图最大化收益的玩家选择列)。假设 M的每个元素都是正的。博弈至少有一个纳什均衡。纳什均衡可以通过求解以下线性规划找到向量 u来找到(Raghavan 1994,p.740):

通过求解给定线性规划的对偶问题,可以找到最小化问题的均衡混合策略。或者,可以用上述方法求解一个修正后的收益矩阵,它是(加一个常数使其为正)的转置和否定,然后求解结果博弈。

最小化:
[math]\displaystyle{ \sum_{i} u_i }[/math]

如果找到线性规划的所有解,它们就构成了博弈的所有纳什均衡。相反,任何线性规划可以转换成一个两人,零和博弈使用变量的变化,使其成为上述方程的形式。所以这样的博弈一般等价于线性规划。

受限于以下约束:
u ≥ 0
M u ≥ 1.

如果回避零和博弈是一个具有一定概率的行动选择,那么在零和博弈中,至少一个参与者的回避总是一个均衡策略。对于任何一个零和游戏的玩家来说,在游戏开始后零和游戏是不可能的或者不可信的,比如说扑克,除了回避游戏之外没有其他的纳什均衡点策略。即使在零和博弈开始后出现了可信的零比零平局,这也不比回避策略好。从这个意义上说,有趣的是,在最优选择计算中找到随走随奖在开始与否的问题上将比所有所有双人零和游戏。

第一个约束说明u向量的每个元素都必须是非负的,第二个约束要求M u向量的每个元素必须至少为1。对于得到的u 向量,其元素和的倒数就是博弈的值。将 u乘以这个值就得到了一个概率向量,给出了最大化的玩家选择每个可能的纯策略的概率。

如果博弈矩阵没有所有的正元素,只需在每个元素上添加一个常量,该元素足够大,足以使它们都是正的。这将使博弈值增加该常数,并且不会对均衡的均衡混合策略产生影响。

通过求解给定线性规划的对偶问题,可以找到最小化博弈者的均衡混合策略。或者,也可以通过使用上述过程来求解修正的支付矩阵,即 M的转置和否定(添加一个常数使其为正),然后求解结果博弈。

如果找到线性规划的所有解,它们将构成博弈的所有 纳什均衡。相反,任何线性程序都可以通过使用变量上述方程形式的变化,将其转换为两人零和博弈。所以,一般来说,这种游戏相当于线性程序。[citation needed]

通解

Robert Wright在他的《非零: 人类命运的逻辑》一书中提出了这样的理论: 当社会变得越来越复杂、专门化和相互依存时,它就会变得越来越非零和。

如果避免零和博弈对玩家来说是一种有一定概率的行为选择,那么在零和博弈中,回避总是至少一个参与者的均衡策略。对于任何两个玩家的零和游戏,在游戏开始后零-零平局是不可能或不可信的,例如扑克,没有纳什均衡策略,除非不做游戏。即使在零和博弈开始后出现了可信的零-零平局,也不比回避策略好。从这个意义上说,有趣的是,在最优选择计算中,在开始游戏或不开始游戏时,最佳选择计算应优先于所有两个玩家的零和博弈[4]

1944年,John von Neumann和Oskar Morgenstern证明了 n 个玩家的任何非零和博弈等价于 n + 1个玩家的零和博弈,第(n + 1)个玩家代表全球的盈亏。

社会心理学子领域中最常见或最简单的例子是“社会陷阱”的概念。在某些情况下,追求个人利益可以增进群体的集体福祉,但在其他情况下,追求个人利益的各方都会导致相互破坏的行为。

复杂性

Robert Wright在他的著作“非零:人类命运的逻辑”中提出,随着社会变得更加复杂、专业化和相互依存,社会变得越来越非零和。

扩展

在心理学中,零和思维指的是这样一种感觉,即某种情况就像一个零和游戏,一个人的得到就是另一个人的损失。

1944年,John von NeumannOskar Morgenstern证明了“n”玩家的任何非零和游戏都等价于一个“n”玩家+1玩家的零和游戏,即第(n + 1)th 个玩家代表全球盈亏[5]

争议问题

零和博弈,尤其是它们的解决方案经常被博弈论的批评者误解,通常是关于参与者的独立性和理性,以及对效用函数的解释。此外,“游戏”一词并不意味着该模型仅对娱乐游戏有效[1]

政治有时被称为零和。[6][7][8]

零和思维

在心理学中,零和思维指的是一种感觉,即感觉某情形就像一场零和博弈,一个人的收益就是另一个人的损失。

参阅

模板:Col div

References

  1. 1.0 1.1 Ken Binmore (2007). Playing for real: a text on game theory. Oxford University Press US. ISBN 978-0-19-530057-4. https://books.google.com/?id=eY0YhSk9ujsC. , chapters 1 & 7
  2. Bowles, Samuel (2004). Microeconomics: Behavior, Institutions, and Evolution. Princeton University Press. pp. 33–36. ISBN 0-691-09163-3. https://archive.org/details/microeconomicsbe00bowl. 
  3. Wenliang Wang (2015). Pooling Game Theory and Public Pension Plan. . Chapter 1 and Chapter 4.
  4. Wenliang Wang (2015). Pooling Game Theory and Public Pension Plan. . Chapter 4.
  5. Theory of Games and Economic Behavior. Princeton University Press (1953). June 25, 2005. ISBN 9780691130613. https://press.princeton.edu/titles/7802.html. Retrieved 2018-02-25. 
  6. Rubin, Jennifer (2013-10-04). "The flaw in zero sum politics". The Washington Post. Retrieved 2017-03-08.
  7. "Lexington: Zero-sum politics". The Economist. 2014-02-08. Retrieved 2017-03-08.
  8. 模板:Cite dictionary

拓展阅读