【应用数学】博弈论

一些定义和符号

符号

一个博弈，记为 G
参与者，记为 i（i=1,2,…,n）
行动：参与者i在做决策时可供选择的动作，记为 $a_i$。行动的集合称为 行动空间 $A_i = \{ a_i\}$
战略：博弈参与者i在决策时，针对其它参与者所选择的行动做出应对的行动安排，记做 $s_i$，战略空间 记为 $S_i=\{s_i\}$
收益，参与者 i 在某个战略组合下的效用，记做 $u_i(s_1, s_2, …, s_n)$

如果所有参与者同时选择行动称为 静态博弈（这里的“同时”是信息概念上的，而不是日历时间上的）,战略 $s_i$ 和行动 $a_i$ 是相同的 $s_i$
如果参与者的决策有先后顺序（称为 动态博弈），战略 $s_i$ 与 i 掌握的信息和可供选择的行动 $a_i$有关。

完全信息，指的是 $u_i(s_1, s_2, …, s_n)$ 对于各个参与方 j 来说是共同的知识
如果某个参与者 i 知道一些其它人不知道的信息，称为 不完全信息博弈

完美信息

参与人行动有先后顺序，没有两个人同时行动
后行动者知道先行动者确切选择了什么行动
（意味着博弈树上没有哪2个决策点是用虚线连起来的）

一个博弈的战略式表述，各方的战略空间是 $S_1, S_2,…, S_n$，收益函数是 $u_1(s_1, s_2, … , s_n), u_2(s_1, s_2, … , s_n),…, u_n(s_1, s_2, … , s_n)$，一个博弈的战略式表述就是 $(S_1,S_2,…,S_n; u_1,u_2,…,u_n)$

博弈可以分为4个大类：

完全信息的静态博弈：对应纳什均衡
完全信息的动态博弈：对应子博弈精炼纳什均衡
不完全信息的静态博弈：对应贝叶斯纳什均衡
不完全信息的动态博弈：对应精炼贝叶斯纳什均衡

共同知识：指的是“所有参与者知道，并且所有参与者知道别人知道，并且。。。”的知识。

例如，在房地产博弈中，所有人的行动集合是共同知识

1. 完全信息的静态博弈

严格占优均衡

【定义】严格占优均衡 对于参与者 i 的某个战略 $s_i^\star$，如果 $\forall s_i’ \not = s_i^\star, \forall s_1,s_2,…s_{i-1}, s_{i+1},…s_n$ 都有 $u_i(s_1,s_2,…,s_{i-1},s_i^\star,s_{i+1}, …, s_n) \gt u_i(s_1,s_2,…,s_{i-1},s_i’,s_{i+1}, …, s_n)$，那么 $s_{i}^\star$ 叫做参与者 i 的严格占优均衡。

注释

严格占优均衡未必存在
如果 i 有唯一的严格占优均衡，那么可以把博弈转化为 n-1 个参与方的博弈

【例子】囚徒困境：

	坦白	抵赖
坦白	-8,-8	0,-10
抵赖	-10,1	-1,-1

对于两个人而言，坦白都是占优均衡

逐步剔除的占优均衡

弱劣战略 和 严格劣战略

对于 i 来说，$s_i’$ 对应的收益总是小于 $s_i’’$ 对应的收益，那么$s_i’$ 是弱劣战略（这里是“弱劣”，也就是劣于某个战略即可）
严格劣指劣于其它所有战略。

【定义】逐步剔除严格劣战略的优势均衡：在一个博弈 G 中，各方不断剔除自身的严格劣战略，最后只剩下唯一的解 $(s_1^\star, s_2^\star, …, s_2^\star)$。
【定义】逐步剔除的占优均衡：各方不断剔除弱劣战略，如果最后的解是唯一的，叫做重复剔除的占优均衡

可以证明，如果每次都能剔除严格劣战略，那么最终的均衡解与剔除顺序无关。但如果每次剔除的是相对劣战略，根据剔除步骤不同，最终得到的解可能不同。
严格劣战略未必存在，例如“石头、剪刀、步”
均衡解的逻辑是这样的：某个人 i 必然不会选择严格劣战略，而这一点又是所有参与者的共同知识

【例子】智猪博弈

		小猪
		按	等待
大猪	按	3, 1	2, 4
大猪	等待	7, -1	0, 0

对于小猪来说，有占优均衡（等待）
对于大猪来说，没有占优均衡
小猪是理性的，所以一定选择等待；大猪知道小猪是理性的，因此预测小猪一定选择等待；所以大猪一定选择按。

【例子2】

		B
		L	M	R
A	U	1, 0	1, 2	0, 1
A	D	0, 3	0, 1	2, 0

先剔除 R，然后剔除 U，解为UM

【例子3】

		B
		L	M
A	U	8, 10	-1000, 9
A	D	7, 6	6, 5

这个例子的重复剔除占优均衡是 UL，但这必须要求 A 百分百相信 B 理性，实际实验发现多数 A 都会选择 D

【例子4】

		B
		L	M
A	U	1, 3	4, 1
A	D	0, 2	3, 4

如果把 A 选择U的收益减少2:

		B
		L	M
A	U	-1, 3	2, 1
A	D	0, 2	3, 4

这个例子说明，减少了 A 的某种选择空间后，其收益反而增加（UL->DM）

纳什均衡

【定义】纳什均衡 （描述式定义）：这样的一个解，在这个解下，如果 i 选择其它战略，他的收益会降低。

纳什均衡可能有多个
纳什均衡是为了解决 “逐步剔除占优均衡” 不存在的问题。纳什均衡一定是不能被 “逐步剔除” 的战略

纳什均衡的求法

对于有限个战略的情况：对其他人的每个战略，找出 i 收益最大的战略。对每个参与者都做以上操作，最后看看哪些是重合的，就是最后的解。
对于无限个战略的情况：根据定义来解。例如 海滩站位博弈、
对于可导的情况：联立导数方程组

【例子】Cournot 寡头竞争模型
第 i 个企业的收益函数为 $\pi_i(q_i) = q_i P(\sum q_i) - C_i(q_i)$

纳什均衡的解法：导数为0，联立方程

【例子】Hotelling 价格竞争模型
产品是有差异的，因此价格不是顾客唯一感兴趣的变量。
把产品差异简化为空间上的差异，假设城市是一条线 $[0, 1]$，两家店分别在0点和1点，顾客均匀分布；成本都是c，价格分别是$p_1, p_2$，顾客旅行成本是每单位 $t$

解：

假设顾客选择1和2的分割点是 $x_0$，那么它满足 $p_1 + t x_0 = p_2 + t x_0$
可以得到两家店的需求 $D_1(p_1, p_2) = x_0 = (p_2 - p_1 + t)/(2t), D_2(p_1, p_2) = 1 - x_0 = (p_1 - p_2 + t)/(2t)$
然后列出利润，求导，得到均衡价格 $p_1=p_2=c+t$
对应均衡利润为 $\pi_1=\pi_2=t/2$
结论：产品差异越大（这里是旅行成本越大），均衡价格越高，均衡利润越高，越接近垄断价格。

【例子】公地悲剧
不多写

【例子】公共物品
公共物品的私人自愿供给会导致供给不足。（也就是说，纳什均衡的供给，小于帕累托最优的供给）
当收入分配不均匀时，博弈变成智猪博弈，有钱人是大猪，穷人是小猪。
某些情况下，博弈也可能变成斗鸡博弈

【例子】中央的地方的博弈

混合战略纳什均衡

对于每个参与者，其战略是概论分布。每个参与者找到合适的概论分布，使其收益的期望最大。

纳什均衡存在性定理 一个有限博弈（参与人数量有限、纯战略数量有限）至少存在一个纳什均衡（纯战略或混合战略的）

如果存在多个纳什均衡，博弈论不能保证某一个纳什均衡一定发生。

2. 完全信息的动态博弈

动态博弈中，参与者的行动是有先后顺序的，后行动者在行动之前可以观测到先行动者的行动。

完全信息的动态博弈包含以下六个要素

参与者 i：i=1,2,…,n
参与者的行动顺序
每个参与者在每个行动时，可供选择的行动
每个参与者在每个行动时，了解的信息
博弈结束后，每个参与者的收益函数
外生事件可能出现的状态及其分布律

以“房地产”开发博弈为例

$incomplete_static1$

对于B来说，有4种策略：

如果A开发，B开发；如果A不开发，B开发
如果A开发，B开发；如果A不开发，B不开发
如果A开发，B不开发；如果A不开发，B不开发
如果A开发，B不开发；如果A不开发，B开发

于是，可以写成一个博弈矩阵

$incomplete_static2$

然后，有3个纳什均衡：

开发，(不开发，开发)
开发，(不开发，不开发)
不开发，(开发，开发)

由此思路，还能引出“混合战略纳什均衡”的概念

定理：一个有限完美信息博弈有一个纯战略纳什均衡

子博弈精炼纳什均衡

“子博弈精炼纳什均衡” 的目的是把动态博弈中的“合理纳什均衡”和“不合理纳什均衡”区分开。什么是“不合理的纳什均衡”？

不开发，(开发，开发)，这个纳什均衡中，B威胁说“无论A如何，我都开发”，而 A 相信了这个威胁。但A真的会相信B的这种威胁吗？实际上A先行动，如果A真的选了开发，B显然最优策略是不开发，B也不会实施这个威胁。
开发，(不开发，不开发)，这个纳什均衡最后的解虽然与合理解一样，

子博弈 的精确定义不写，就是子博弈本身必须是一个独立、完整的博弈。如果拆开的博弈树与外部的某个节点有虚线连接，就不是一个子博弈（否则信息集就被错误切割了）

子博弈精炼纳什均衡 一个战略组合，满足：

它是原博弈的一个纳什均衡
它还在每个子博弈上构成纳什均衡

顺理成章想到，解子博弈精炼纳什均衡需要“倒着解”

斯坦科尔伯格双寡头模型

重复博弈

有限次重复博弈

考虑贴现因子的有限次重复博弈

无限次重复博弈

连锁店悖论 设想在位者拥有20家连锁店，他与潜在的进入者博弈。（就是一个20次的重复博弈）。
直观理解下，在位者应该在第一次博弈就全力阻止进入者。
但这个策略不是子博弈精炼纳什均衡。子博弈纳什均衡从第20家店开始向前倒推，发现子博弈精炼纳什均衡是“在位者20次默许进入，进入者20次进入”

解连锁悖论需要引入信息不完全性。
首先，假设一个无穷次博弈，用贴现因子解出（不坦白、不坦白）是一个纳什均衡，只要贴现很大。
（无名氏定理）

3. 不完全信息的静态博弈

至少有一个参与者不完全知道其他参与者的收益函数

海萨尼转换：

引入一个参与则“自然”，“自然”先行动，“自然”的收益是无差异的，其它
其它方不知道真实情况，只知道其分布。而当事人也知道其它人知道概率分布（也就是说，概率分布是“共同知识”）
这就把“不完全信息博弈”转换成了“完全但不完美信息博弈”（不完美指的是，自然做出了选择，但其它参与人并不知道他选择了什么）
在此基础上，定义了“贝叶斯纳什均衡”

4. 不完全信息的动态博弈

当事人根据观察到的他人行为来修正自己关于他人的“信念”，并由此选择自己的行为。

参考文献

《博弈论基础-要点注释与题解精编》李光久，江苏大学出版社