一些定义和符号
符号
- 一个博弈,记为 G
- 参与者,记为 i(i=1,2,…,n)
- 行动:参与者i在做决策时可供选择的动作,记为 $a_i$。行动的集合称为 行动空间 \(A_i = \{ a_i\}\)
- 战略:博弈参与者i在决策时,针对其它参与者所选择的行动做出应对的行动安排,记做 $s_i$,战略空间 记为 \(S_i=\{s_i\}\)
- 收益,参与者 i 在某个战略组合下的效用,记做 $u_i(s_1, s_2, …, s_n)$
如果所有参与者同时选择行动称为 静态博弈(这里的“同时”是信息概念上的,而不是日历时间上的),战略 $s_i$ 和行动 $a_i$ 是相同的 $s_i$
如果参与者的决策有先后顺序(称为 动态博弈),战略 $s_i$ 与 i 掌握的信息和可供选择的行动 $a_i$有关。
完全信息,指的是 $u_i(s_1, s_2, …, s_n)$ 对于各个参与方 j 来说是共同的知识
如果某个参与者 i 知道一些其它人不知道的信息,称为 不完全信息博弈
完美信息
- 参与人行动有先后顺序,没有两个人同时行动
- 后行动者知道先行动者确切选择了什么行动
- (意味着博弈树上没有哪2个决策点是用虚线连起来的)
一个博弈的战略式表述,各方的战略空间是 $S_1, S_2,…, S_n$,收益函数是 $u_1(s_1, s_2, … , s_n), u_2(s_1, s_2, … , s_n),…, u_n(s_1, s_2, … , s_n)$,一个博弈的战略式表述就是 $(S_1,S_2,…,S_n; u_1,u_2,…,u_n)$
博弈可以分为4个大类:
- 完全信息的静态博弈:对应纳什均衡
- 完全信息的动态博弈:对应子博弈精炼纳什均衡
- 不完全信息的静态博弈:对应贝叶斯纳什均衡
- 不完全信息的动态博弈:对应精炼贝叶斯纳什均衡
共同知识:指的是“所有参与者知道,并且所有参与者知道别人知道,并且。。。”的知识。
- 例如,在房地产博弈中,所有人的行动集合是共同知识
1. 完全信息的静态博弈
严格占优均衡
【定义】严格占优均衡 对于参与者 i 的某个战略 $s_i^\star$,如果 $\forall s_i’ \not = s_i^\star, \forall s_1,s_2,…s_{i-1}, s_{i+1},…s_n$ 都有 $u_i(s_1,s_2,…,s_{i-1},s_i^\star,s_{i+1}, …, s_n) \gt u_i(s_1,s_2,…,s_{i-1},s_i’,s_{i+1}, …, s_n)$,那么 $s_{i}^\star$ 叫做参与者 i 的严格占优均衡。
注释
- 严格占优均衡未必存在
- 如果 i 有唯一的严格占优均衡,那么可以把博弈转化为 n-1 个参与方的博弈
【例子】囚徒困境:
坦白 | 抵赖 | |
---|---|---|
坦白 | -8,-8 | 0,-10 |
抵赖 | -10,1 | -1,-1 |
对于两个人而言,坦白都是占优均衡
逐步剔除的占优均衡
弱劣战略 和 严格劣战略
- 对于 i 来说,$s_i’$ 对应的收益总是小于 $s_i’’$ 对应的收益,那么$s_i’$ 是弱劣战略(这里是“弱劣”,也就是劣于某个战略即可)
- 严格劣指劣于其它所有战略。
【定义】逐步剔除严格劣战略的优势均衡:在一个博弈 G 中,各方不断剔除自身的严格劣战略,最后只剩下唯一的解 $(s_1^\star, s_2^\star, …, s_2^\star)$。
【定义】逐步剔除的占优均衡:各方不断剔除弱劣战略,如果最后的解是唯一的,叫做重复剔除的占优均衡
- 可以证明,如果每次都能剔除严格劣战略,那么最终的均衡解与剔除顺序无关。但如果每次剔除的是相对劣战略,根据剔除步骤不同,最终得到的解可能不同。
- 严格劣战略未必存在,例如“石头、剪刀、步”
- 均衡解的逻辑是这样的:某个人 i 必然不会选择严格劣战略,而这一点又是所有参与者的共同知识
【例子】智猪博弈
小猪 | |||
---|---|---|---|
按 | 等待 | ||
大猪 | 按 | 3, 1 | 2, 4 |
等待 | 7, -1 | 0, 0 |
- 对于小猪来说,有占优均衡(等待)
- 对于大猪来说,没有占优均衡
- 小猪是理性的,所以一定选择等待;大猪知道小猪是理性的,因此预测小猪一定选择等待;所以大猪一定选择按。
【例子2】
B | ||||
---|---|---|---|---|
L | M | R | ||
A | U | 1, 0 | 1, 2 | 0, 1 |
D | 0, 3 | 0, 1 | 2, 0 |
先剔除 R,然后剔除 U,解为UM
【例子3】
B | |||
---|---|---|---|
L | M | ||
A | U | 8, 10 | -1000, 9 |
D | 7, 6 | 6, 5 |
这个例子的重复剔除占优均衡是 UL,但这必须要求 A 百分百相信 B 理性,实际实验发现多数 A 都会选择 D
【例子4】
B | |||
---|---|---|---|
L | M | ||
A | U | 1, 3 | 4, 1 |
D | 0, 2 | 3, 4 |
如果把 A 选择U的收益减少2:
B | |||
---|---|---|---|
L | M | ||
A | U | -1, 3 | 2, 1 |
D | 0, 2 | 3, 4 |
这个例子说明,减少了 A 的某种选择空间后,其收益反而增加(UL->DM)
纳什均衡
【定义】纳什均衡 (描述式定义):这样的一个解,在这个解下,如果 i 选择其它战略,他的收益会降低。
- 纳什均衡可能有多个
- 纳什均衡是为了解决 “逐步剔除占优均衡” 不存在的问题。纳什均衡一定是不能被 “逐步剔除” 的战略
纳什均衡的求法
- 对于有限个战略的情况:对其他人的每个战略,找出 i 收益最大的战略。对每个参与者都做以上操作,最后看看哪些是重合的,就是最后的解。
- 对于无限个战略的情况:根据定义来解。例如 海滩站位博弈、
- 对于可导的情况:联立导数方程组
【例子】Cournot 寡头竞争模型
第 i 个企业的收益函数为 $\pi_i(q_i) = q_i P(\sum q_i) - C_i(q_i)$
纳什均衡的解法:导数为0,联立方程
【例子】Hotelling 价格竞争模型
产品是有差异的,因此价格不是顾客唯一感兴趣的变量。
把产品差异简化为空间上的差异,假设城市是一条线 $[0, 1]$,两家店分别在0点和1点,顾客均匀分布;成本都是c,价格分别是$p_1, p_2$,顾客旅行成本是每单位 $t$
解:
- 假设顾客选择1和2的分割点是 $x_0$,那么它满足 $p_1 + t x_0 = p_2 + t x_0$
- 可以得到两家店的需求 $D_1(p_1, p_2) = x_0 = (p_2 - p_1 + t)/(2t), D_2(p_1, p_2) = 1 - x_0 = (p_1 - p_2 + t)/(2t)$
- 然后列出利润,求导,得到均衡价格 $p_1=p_2=c+t$
- 对应均衡利润为 $\pi_1=\pi_2=t/2$
- 结论:产品差异越大(这里是旅行成本越大),均衡价格越高,均衡利润越高,越接近垄断价格。
【例子】公地悲剧
不多写
【例子】公共物品
公共物品的私人自愿供给会导致供给不足。(也就是说,纳什均衡的供给,小于帕累托最优的供给)
当收入分配不均匀时,博弈变成智猪博弈,有钱人是大猪,穷人是小猪。
某些情况下,博弈也可能变成斗鸡博弈
【例子】中央的地方的博弈
混合战略纳什均衡
对于每个参与者,其战略是概论分布。每个参与者找到合适的概论分布,使其收益的期望最大。
纳什均衡存在性定理 一个有限博弈(参与人数量有限、纯战略数量有限)至少存在一个纳什均衡(纯战略或混合战略的)
如果存在多个纳什均衡,博弈论不能保证某一个纳什均衡一定发生。
2. 完全信息的动态博弈
动态博弈中,参与者的行动是有先后顺序的,后行动者在行动之前可以观测到先行动者的行动。
完全信息的动态博弈包含以下六个要素
- 参与者 i:i=1,2,…,n
- 参与者的行动顺序
- 每个参与者在每个行动时,可供选择的行动
- 每个参与者在每个行动时,了解的信息
- 博弈结束后,每个参与者的收益函数
- 外生事件可能出现的状态及其分布律
以“房地产”开发博弈为例
对于B来说,有4种策略:
- 如果A开发,B开发;如果A不开发,B开发
- 如果A开发,B开发;如果A不开发,B不开发
- 如果A开发,B不开发;如果A不开发,B不开发
- 如果A开发,B不开发;如果A不开发,B开发
于是,可以写成一个博弈矩阵
然后,有3个纳什均衡:
- 开发,(不开发,开发)
- 开发,(不开发,不开发)
- 不开发,(开发,开发)
由此思路,还能引出“混合战略纳什均衡”的概念
定理:一个有限完美信息博弈有一个纯战略纳什均衡
子博弈精炼纳什均衡
“子博弈精炼纳什均衡” 的目的是把动态博弈中的“合理纳什均衡”和“不合理纳什均衡”区分开。什么是“不合理的纳什均衡”?
- 不开发,(开发,开发),这个纳什均衡中,B威胁说“无论A如何,我都开发”,而 A 相信了这个威胁。但A真的会相信B的这种威胁吗?实际上A先行动,如果A真的选了开发,B显然最优策略是不开发,B也不会实施这个威胁。
- 开发,(不开发,不开发),这个纳什均衡最后的解虽然与合理解一样,
子博弈 的精确定义不写,就是子博弈本身必须是一个独立、完整的博弈。如果拆开的博弈树与外部的某个节点有虚线连接,就不是一个子博弈(否则信息集就被错误切割了)
子博弈精炼纳什均衡 一个战略组合,满足:
- 它是原博弈的一个纳什均衡
- 它还在每个子博弈上构成纳什均衡
顺理成章想到,解子博弈精炼纳什均衡需要“倒着解”
斯坦科尔伯格双寡头模型
重复博弈
有限次重复博弈
考虑贴现因子的有限次重复博弈
无限次重复博弈
连锁店悖论 设想在位者拥有20家连锁店,他与潜在的进入者博弈。(就是一个20次的重复博弈)。
直观理解下,在位者应该在第一次博弈就全力阻止进入者。
但这个策略不是子博弈精炼纳什均衡。子博弈纳什均衡从第20家店开始向前倒推,发现子博弈精炼纳什均衡是“在位者20次默许进入,进入者20次进入”
解连锁悖论需要引入信息不完全性。
首先,假设一个无穷次博弈,用贴现因子解出(不坦白、不坦白)是一个纳什均衡,只要贴现很大。
(无名氏定理)
3. 不完全信息的静态博弈
至少有一个参与者不完全知道其他参与者的收益函数
海萨尼转换:
- 引入一个参与则“自然”,“自然”先行动,“自然”的收益是无差异的,其它
- 其它方不知道真实情况,只知道其分布。而当事人也知道其它人知道概率分布(也就是说,概率分布是“共同知识”)
- 这就把“不完全信息博弈”转换成了“完全但不完美信息博弈”(不完美指的是,自然做出了选择,但其它参与人并不知道他选择了什么)
- 在此基础上,定义了“贝叶斯纳什均衡”
4. 不完全信息的动态博弈
当事人根据观察到的他人行为来修正自己关于他人的“信念”,并由此选择自己的行为。
参考文献
《博弈论基础-要点注释与题解精编》李光久,江苏大学出版社