【应用数学】博弈论



2021年09月25日    Author:Guofei

文章归类: 0x59_应用数学    文章编号: 5921

版权声明:本文作者是郭飞。转载随意,标明原文链接即可。本人邮箱
原文链接:https://www.guofei.site/2021/09/25/game_theory.html


一些定义和符号

符号

  • 一个博弈,记为 G
  • 参与者,记为 i(i=1,2,…,n)
  • 行动:参与者i在做决策时可供选择的动作,记为 $a_i$。行动的集合称为 行动空间 \(A_i = \{ a_i\}\)
  • 战略:博弈参与者i在决策时,针对其它参与者所选择的行动做出应对的行动安排,记做 $s_i$,战略空间 记为 \(S_i=\{s_i\}\)
  • 收益,参与者 i 在某个战略组合下的效用,记做 $u_i(s_1, s_2, …, s_n)$

如果所有参与者同时选择行动称为 静态博弈(这里的“同时”是信息概念上的,而不是日历时间上的),战略 $s_i$ 和行动 $a_i$ 是相同的 $s_i$
如果参与者的决策有先后顺序(称为 动态博弈),战略 $s_i$ 与 i 掌握的信息和可供选择的行动 $a_i$有关。

完全信息,指的是 $u_i(s_1, s_2, …, s_n)$ 对于各个参与方 j 来说是共同的知识
如果某个参与者 i 知道一些其它人不知道的信息,称为 不完全信息博弈

完美信息

  1. 参与人行动有先后顺序,没有两个人同时行动
  2. 后行动者知道先行动者确切选择了什么行动
  3. (意味着博弈树上没有哪2个决策点是用虚线连起来的)

一个博弈的战略式表述,各方的战略空间是 $S_1, S_2,…, S_n$,收益函数是 $u_1(s_1, s_2, … , s_n), u_2(s_1, s_2, … , s_n),…, u_n(s_1, s_2, … , s_n)$,一个博弈的战略式表述就是 $(S_1,S_2,…,S_n; u_1,u_2,…,u_n)$

博弈可以分为4个大类:

  1. 完全信息的静态博弈:对应纳什均衡
  2. 完全信息的动态博弈:对应子博弈精炼纳什均衡
  3. 不完全信息的静态博弈:对应贝叶斯纳什均衡
  4. 不完全信息的动态博弈:对应精炼贝叶斯纳什均衡

共同知识:指的是“所有参与者知道,并且所有参与者知道别人知道,并且。。。”的知识。

  • 例如,在房地产博弈中,所有人的行动集合是共同知识

1. 完全信息的静态博弈

严格占优均衡

【定义】严格占优均衡 对于参与者 i 的某个战略 $s_i^\star$,如果 $\forall s_i’ \not = s_i^\star, \forall s_1,s_2,…s_{i-1}, s_{i+1},…s_n$ 都有 $u_i(s_1,s_2,…,s_{i-1},s_i^\star,s_{i+1}, …, s_n) \gt u_i(s_1,s_2,…,s_{i-1},s_i’,s_{i+1}, …, s_n)$,那么 $s_{i}^\star$ 叫做参与者 i 的严格占优均衡。

注释

  • 严格占优均衡未必存在
  • 如果 i 有唯一的严格占优均衡,那么可以把博弈转化为 n-1 个参与方的博弈

【例子】囚徒困境

  坦白 抵赖
坦白 -8,-8 0,-10
抵赖 -10,1 -1,-1

对于两个人而言,坦白都是占优均衡

逐步剔除的占优均衡

弱劣战略严格劣战略

  • 对于 i 来说,$s_i’$ 对应的收益总是小于 $s_i’’$ 对应的收益,那么$s_i’$ 是弱劣战略(这里是“弱劣”,也就是劣于某个战略即可)
  • 严格劣指劣于其它所有战略。

【定义】逐步剔除严格劣战略的优势均衡:在一个博弈 G 中,各方不断剔除自身的严格劣战略,最后只剩下唯一的解 $(s_1^\star, s_2^\star, …, s_2^\star)$。
【定义】逐步剔除的占优均衡:各方不断剔除弱劣战略,如果最后的解是唯一的,叫做重复剔除的占优均衡

  • 可以证明,如果每次都能剔除严格劣战略,那么最终的均衡解与剔除顺序无关。但如果每次剔除的是相对劣战略,根据剔除步骤不同,最终得到的解可能不同。
  • 严格劣战略未必存在,例如“石头、剪刀、步”
  • 均衡解的逻辑是这样的:某个人 i 必然不会选择严格劣战略,而这一点又是所有参与者的共同知识

【例子】智猪博弈

小猪
等待
大猪 3, 1 2, 4
等待 7, -1 0, 0
  • 对于小猪来说,有占优均衡(等待)
  • 对于大猪来说,没有占优均衡
  • 小猪是理性的,所以一定选择等待;大猪知道小猪是理性的,因此预测小猪一定选择等待;所以大猪一定选择按。

【例子2】

B
L M R
A U 1, 0 1, 2 0, 1
D 0, 3 0, 1 2, 0

先剔除 R,然后剔除 U,解为UM

【例子3】

B
L M
A U 8, 10 -1000, 9
D 7, 6 6, 5

这个例子的重复剔除占优均衡是 UL,但这必须要求 A 百分百相信 B 理性,实际实验发现多数 A 都会选择 D

【例子4】

B
L M
A U 1, 3 4, 1
D 0, 2 3, 4

如果把 A 选择U的收益减少2:

B
L M
A U -1, 3 2, 1
D 0, 2 3, 4

这个例子说明,减少了 A 的某种选择空间后,其收益反而增加(UL->DM)

纳什均衡

【定义】纳什均衡 (描述式定义):这样的一个解,在这个解下,如果 i 选择其它战略,他的收益会降低。

  • 纳什均衡可能有多个
  • 纳什均衡是为了解决 “逐步剔除占优均衡” 不存在的问题。纳什均衡一定是不能被 “逐步剔除” 的战略

纳什均衡的求法

  • 对于有限个战略的情况:对其他人的每个战略,找出 i 收益最大的战略。对每个参与者都做以上操作,最后看看哪些是重合的,就是最后的解。
  • 对于无限个战略的情况:根据定义来解。例如 海滩站位博弈
  • 对于可导的情况:联立导数方程组

【例子】Cournot 寡头竞争模型
第 i 个企业的收益函数为 $\pi_i(q_i) = q_i P(\sum q_i) - C_i(q_i)$

纳什均衡的解法:导数为0,联立方程

【例子】Hotelling 价格竞争模型
产品是有差异的,因此价格不是顾客唯一感兴趣的变量。
把产品差异简化为空间上的差异,假设城市是一条线 $[0, 1]$,两家店分别在0点和1点,顾客均匀分布;成本都是c,价格分别是$p_1, p_2$,顾客旅行成本是每单位 $t$

解:

  1. 假设顾客选择1和2的分割点是 $x_0$,那么它满足 $p_1 + t x_0 = p_2 + t x_0$
  2. 可以得到两家店的需求 $D_1(p_1, p_2) = x_0 = (p_2 - p_1 + t)/(2t), D_2(p_1, p_2) = 1 - x_0 = (p_1 - p_2 + t)/(2t)$
  3. 然后列出利润,求导,得到均衡价格 $p_1=p_2=c+t$
  4. 对应均衡利润为 $\pi_1=\pi_2=t/2$
  5. 结论:产品差异越大(这里是旅行成本越大),均衡价格越高,均衡利润越高,越接近垄断价格。

【例子】公地悲剧
不多写

【例子】公共物品
公共物品的私人自愿供给会导致供给不足。(也就是说,纳什均衡的供给,小于帕累托最优的供给)
当收入分配不均匀时,博弈变成智猪博弈,有钱人是大猪,穷人是小猪。
某些情况下,博弈也可能变成斗鸡博弈

【例子】中央的地方的博弈

混合战略纳什均衡

对于每个参与者,其战略是概论分布。每个参与者找到合适的概论分布,使其收益的期望最大。

纳什均衡存在性定理 一个有限博弈(参与人数量有限、纯战略数量有限)至少存在一个纳什均衡(纯战略或混合战略的)

如果存在多个纳什均衡,博弈论不能保证某一个纳什均衡一定发生。

2. 完全信息的动态博弈

动态博弈中,参与者的行动是有先后顺序的,后行动者在行动之前可以观测到先行动者的行动。

完全信息的动态博弈包含以下六个要素

  1. 参与者 i:i=1,2,…,n
  2. 参与者的行动顺序
  3. 每个参与者在每个行动时,可供选择的行动
  4. 每个参与者在每个行动时,了解的信息
  5. 博弈结束后,每个参与者的收益函数
  6. 外生事件可能出现的状态及其分布律

以“房地产”开发博弈为例

incomplete_static1

对于B来说,有4种策略:

  1. 如果A开发,B开发;如果A不开发,B开发
  2. 如果A开发,B开发;如果A不开发,B不开发
  3. 如果A开发,B不开发;如果A不开发,B不开发
  4. 如果A开发,B不开发;如果A不开发,B开发

于是,可以写成一个博弈矩阵

incomplete_static2

然后,有3个纳什均衡:

  1. 开发,(不开发,开发)
  2. 开发,(不开发,不开发)
  3. 不开发,(开发,开发)

由此思路,还能引出“混合战略纳什均衡”的概念

定理:一个有限完美信息博弈有一个纯战略纳什均衡

子博弈精炼纳什均衡

“子博弈精炼纳什均衡” 的目的是把动态博弈中的“合理纳什均衡”和“不合理纳什均衡”区分开。什么是“不合理的纳什均衡”?

  • 不开发,(开发,开发),这个纳什均衡中,B威胁说“无论A如何,我都开发”,而 A 相信了这个威胁。但A真的会相信B的这种威胁吗?实际上A先行动,如果A真的选了开发,B显然最优策略是不开发,B也不会实施这个威胁。
  • 开发,(不开发,不开发),这个纳什均衡最后的解虽然与合理解一样,

子博弈 的精确定义不写,就是子博弈本身必须是一个独立、完整的博弈。如果拆开的博弈树与外部的某个节点有虚线连接,就不是一个子博弈(否则信息集就被错误切割了)

子博弈精炼纳什均衡 一个战略组合,满足:

  • 它是原博弈的一个纳什均衡
  • 它还在每个子博弈上构成纳什均衡

顺理成章想到,解子博弈精炼纳什均衡需要“倒着解”

斯坦科尔伯格双寡头模型

重复博弈

有限次重复博弈

考虑贴现因子的有限次重复博弈

无限次重复博弈

连锁店悖论 设想在位者拥有20家连锁店,他与潜在的进入者博弈。(就是一个20次的重复博弈)。
直观理解下,在位者应该在第一次博弈就全力阻止进入者。
但这个策略不是子博弈精炼纳什均衡。子博弈纳什均衡从第20家店开始向前倒推,发现子博弈精炼纳什均衡是“在位者20次默许进入,进入者20次进入”

解连锁悖论需要引入信息不完全性。
首先,假设一个无穷次博弈,用贴现因子解出(不坦白、不坦白)是一个纳什均衡,只要贴现很大。
无名氏定理

3. 不完全信息的静态博弈

至少有一个参与者不完全知道其他参与者的收益函数

海萨尼转换:

  • 引入一个参与则“自然”,“自然”先行动,“自然”的收益是无差异的,其它
  • 其它方不知道真实情况,只知道其分布。而当事人也知道其它人知道概率分布(也就是说,概率分布是“共同知识”)
  • 这就把“不完全信息博弈”转换成了“完全但不完美信息博弈”(不完美指的是,自然做出了选择,但其它参与人并不知道他选择了什么)
  • 在此基础上,定义了“贝叶斯纳什均衡”

4. 不完全信息的动态博弈

当事人根据观察到的他人行为来修正自己关于他人的“信念”,并由此选择自己的行为。

参考文献

《博弈论基础-要点注释与题解精编》李光久,江苏大学出版社


您的支持将鼓励我继续创作!