首页 | 农村土地改革 | 法经济学茶座 | 法经济学论坛
     网站首页≯ 法律经济学论坛≯
从均衡到均衡
文/丁利

——制度变迁的主观博弈框架*

 

  

 

摘要:经典博弈论在解释那些已经稳定下来的制度是如何起作用的问题上是非常有说服力的;但其隐含的“每个博弈者都知道模型本身”假设在制度变迁问题上很难描述“从均衡到均衡”的跃迁。进化博弈作为与经典博弈论互补的观念,虽然对博弈解概念在稳定或统计意义上给出其合理性证明,由于强烈依赖于“稳态环境”假设,也存在一些值得拓展之处。结合最近十多年关于博弈论基础的众多重要结果,本文讨论一个在主观博弈(subjective game)观点下对这两种行为给出一贯解释并能应用于制度变迁问题的可行性。

 

 

 

什么是制度?或者说,制度是如何起作用的?经典博弈论及其应用——机制设计理论给出了有说服力的回答。那就是,制度通过一个机制(博弈形式)的实施,使得人们在此机制下的均衡结果是满足一组社会价值判断标准的目标。这样一个框架适用于从事后解释那些稳定下来的行为模式以及这些行为模式的“合制度性”或合目的性。但是,制度变迁过程,表现为从均衡到均衡的跃迁,则不是这样一个框架所能够容纳的。如果我们只关心制度变迁的结果,那么这个框架可能足以抓住重要的东西。但是当变迁过程本身是如此重要甚至直接影响到最终结局的时候,我们需要一个稍微复杂些的能够刻画过程的框架。正在稳健地发展着的主观博弈理论有可能是实现这个意图的候选者。

 

本文内容是如下安排的。我们首先给出一个关于博弈论与机制设计理论的制度观的讨论,并强调这样一种静态的制度观不足以刻画制度变迁问题;第二部分我们讨论关于博弈论解概念的基础的两个互补的知识论与进化论观念;第三部分提出一个兼顾知识论与进化论观念的主观博弈框架。最后,我们在结语中讨论研究者作为特殊的博弈者在制度变迁中的角色。



机制设计:关于制度的规范理论

 

在规范意义上,标准的经济学(甚或整个社会科学)关于制度问题有一个三位一体的结构,即博弈论、社会选择与机制设计理论。如果我们知道一个社会的价值目标,并且知道人们是如何决策的以及这些决策会导致何种结果,那么就可以通过设计一个机制(博弈形式)使其(均衡[1])结果满足某种社会最优性标准。严格来说,机制设计理论[2]试图给出一个全面刻画,即,哪些社会目标,在什么行为模式(博弈解概念)下,能否通过何种机制得以实现。在实证意义上,这个框架也可以看作是对已经存在并发挥着作用的制度的事后解释,如果我们认为刻画制度与刻画社会组织中人们在制度指引下的决策行为是同一回事的话。

结合了博弈论与社会选择理论的机制设计理论[3]一般是这样的:

一个环境 ,其中是社会的可能的最终结果的集合,是社会博弈者集合,是自然状态[4]集合。一个社会选择规则或社会选择函数代表了社会目标,它对每一个自然状态给出一个(或一组[5])“社会合理的”结果,通常采用把在上的个人偏好组合转化为社会偏好的方式[6]

一个(正规型[7])机制,其中是信号(策略)空间,是结局函数是我们采用的解概念,代表了社会博弈中人们做出决策的行为模式,对每一,给出一解。通常我们以纳什均衡为解概念[8],即存在一策略[9]组合,使得对任何。换句话说,是最优反应对应的不动点。

当对所有,则称机制执行了社会选择规则[10]。这个框架的观念反映在如图的Mount-Reiter三角中。

机制设计理论的基本出发点是,机制的设计者知道在何种社会状态下相应的社会目标,但不知道社会处在哪个状态之中[11]。如果他知道社会状态是什么,直接强制执行社会目标即可。但因为做不到这点,所以只好通过制度来间接实现[12]

 

 


是否“存在”一个社会目标,是值得进一步考察的。首先,不同价值标准来源于何处。一个可能的解决思路是,借用纳什规划(Nash program)的观念,我们可以把社会价值看作是社会谈判过程的结果,而谈判又可以看作是更基本的非合作社会博弈的结果[13]。其次,阿罗定理揭示出不同价值标准之间的内在不一致性[14]。与此有关,第三,如果将社会选择规则或函数直接理解为制度,则存在虚假显示偏好的策略性操纵[15]问题。

机制设计者可以有几种解释。一是社会博弈中的一个特别博弈者,他的个人目标即社会目标;或者一个利益不相关的局外人,譬如卢梭的《社会契约论》中提供立法的“外邦人”。另外,可以解释为整个社会,研究者为之提供一个政策建议。

显示原理告诉我们,一个社会选择规则如果能够被一个特定机制的博弈均衡实现,从而它是激励相容的,则一定能够通过一个“直接机制”得以实现。在这个直接机制博弈中,博弈者的行动空间即其类型集合,每个博弈者真实显示自己的类型特征构成一个(贝叶斯)纳什均衡。但显示原理主要作用在于,从研究者的角度,可以把问题简化处理。我们在现实中很少观察到这样的直接机制,除了投标、拍卖等情形。

机制设计理论可能引发的一个疑问是,机制是如何得到实施的[16],我们是否需要保证制度得以实施的制度。Hurwicz19921993)进一步讨论了关于机制的实施制度以及制度进化在机制设计框架中的刻画。他提出一个“博弈层次”的框架,第一个博弈的结局空间是下一个博弈的“规则的规则”,如此进行下去,伴随着博弈结局的特殊性的增加,直到最后的博弈实质性的结局(譬如资源配置)才被确定。某个表层制度(机制)的可实施性源于更具基本性的制度,后者把前者中的执行者变为一个博弈者,这个基础性博弈的结局决定了前者的结构(策略空间和结局函数)。最终我们可以追溯到一个自我实施(self-enforcing)的制度,这个制度是由所有博弈者的历史赋予的最基本和最稳定的知识和技术水平所决定的。

或者,“把制度变迁过程看作一个博弈的(有限)序列,这些博弈编号为。对,其结局函数以不断增加的细节指定博弈的规则。最后,博弈 决定实体性结果,譬如资源配置或谁当选(更早的博弈只决定选举规则)”Hurwicz 1993 60)。

这样,在Mount-Reiter三角中,把制度以及制度的实施者,制度变迁的发起者和推动者都浓缩在一个社会博弈中了。社会博弈可以展开为两部分。一部分是由技术所决定的“实体博弈”[17];另一部分是制度实施的子博弈,可以用一个显示机制来模拟。通过把一个特殊的“显示机制” 博弈联结到一个实体问题场景上,从而使得原来的博弈可以实现社会目标[18]这样一个把制度及其得到实施的状态看作是博弈均衡结果的框架既可以用来分析“正式规则”,也可以用来分析“非正式规则”。

这个静态框架无疑反映了一种莱布尼兹式的乐观主义,“我们生活的世界是所有可能世界中最好的”[19]机制设计理论的发展似乎表明,不管什么样的社会目标,总能找到执行它的机制,只要我们选择相应的均衡概念;而不管机制中对人们的行为模式是如何预设的,总能找到它能执行的所谓最低合理限度的社会目标。特别是,几乎所有与经典机制设计有关的观念,如参与理性、激励相容、信息复杂性[20]、机制的稳健性[21]和策略性模糊或不完备[22]等,都有相应的关于制度变迁问题的平行解释。

这样理解制度及其变迁,从规范角度是没有问题的。从实证角度看,如果作为一种对稳定下来的制度选择的事后解释,也很容易被接受。但是制度变迁(新制度的产生与旧制度被取代),在微观上源自环境的变化和博弈者知识的突变,在宏观上表现为从一个均衡到另一个均衡的跃迁,如何在这个框架中得到描述呢?经典的机制设计框架,即使加上赫尔维茨的处理,对这个问题的解释力也是有限的。当然,理论模型是否合理取决于我们希望利用理论达到什么目的。如果我们关心的是制度变迁的结果,并且我们相信社会中的博弈者最终一定是按照我们所运用的解概念那样行为的,那么这样一个框架或许足够有用。这就要看我们如何理解人们的行为,我们关于博弈的解概念在什么程度上是合理的或恰当的。一句话,我们如何理解均衡实现的过程。

 

 

均衡:理性与进化的互补解释

 

如博弈论大家宾摩尔所强调的,纳什在其博士论文里也早已讨论过的,博弈论解概念的均衡化(equilibrating)有两个互补的方面,演绎(eductive)(知识论)的与进化(evolutive)的。

关于纳什均衡等博弈解概念的知识论基础,在于社会博弈中,除了物理性的博弈结构,还有一个信念阶梯系统在起作用。不太严格地讲,博弈结构以及人们如何理解它们和在他们的知识下将如何“玩”这个游戏都是博弈者之间的“普遍知识(common knowledge) [23]。这要求把博弈者看作理性的并具备足够的知识和推理能力。理性意味着他必然做出在关于其他博弈者的行为的信念下的最优反应。进一步,博弈模型把所有重要的相关信息都囊括进来而无遗漏;每个博弈者都精通博弈论并知道他们了解同一个解概念;博弈者在利用其掌握的信息推理并做出判断和决策时,知道对手也是这样思考问题的,所以他能想象出对手的主观内心世界;所有这一切都被所有博弈者普遍地知道,也就是说博弈者共用一个“普遍模型”(common model)[24]

这样,博弈的一个解如果能被博弈者按照理论所推演出从而大家为所共同预见的话,它就应该是一个“自我实施(self-enforcing)”的行动方案。一个解概念满足自我实施性质的必然条件要求它至少应该是纳什均衡;而纳什均衡的精炼和筛选意味着,自我实施性质还提出了更强的理性要求。

在这样一个理想化的理性的均衡行为观念下,均衡是瞬间实现的;在博弈之初,历史已经一览无余,所有历史过程只不过是沿着均衡路径的展开[25]。一次制度变迁的完成,表现为从一个均衡实现阶段到另一个均衡实现阶段的过渡,只不过是这个先验合理过程——均衡路径上的一个环节。

显然,这样的理解容易受到多方面的怀疑。Fudenberg & Levine (1998)指出几个问题:当博弈存在多重纳什均衡时,博弈者如何协调他们的信念以选择一个特定均衡是不清楚的;关于博弈本身的普遍知识很难建立;均衡理论在解释大多数实验中最初回合的行为上是糟糕的,即便对后来的回合的解释稍好些;从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和。

虽然知识论基础的要求是如此之强以致我们很难认为它是现实的,但是正如Weibull (1998b)所指出,如果我们能够表明博弈者“好象(as if)” 是具有很好的理性和知识一样行为的,那么这就为研究者采取这样一种描述或解释世界的方式提供了合理性辩护。现在很活跃的学习和进化博弈理论[26],就是要在更弱也更合理的假设上探讨博弈者的长期行为,以便达到与知识论殊途同归,甚而给出更丰富的结论。

一般来说,如Kandori1997243-244)所指出,在现代文献中,学习和进化被模糊地加以区分。关于学习的研究通常假设在一个固定匹配博弈中博弈者可以计算出最优反应,并探讨他们如何更新关于对手的策略的信念;而进化论的研究则并不必然假设博弈者具备最优化的能力,主要分析合理行为通过试错(trial and error)以及在博弈群体中的自然选择而进化[27]。这样的区分意味着,进化可以看作仅仅要求最弱意义的理性,通常是仅仅具有根据过去的经验和观察调整那些成功和失败的行动被选择的机会的能力。

相对于知识论的博弈论奠基于“一致性(consistency)”及其拓展“人际间一致性(interpersonal-consistency)”观念之上,进化博弈理论的核心是稳健性(robustness)检验[28]。对决定论动力系统而言,最基本的稳健性是,有限时间内系统状态对系统初值和参数的连续依赖性;进一步,我们关注的是长期行为而非短期行为,那么有李雅普诺夫稳定性[29],渐近稳定性[30];以及在参数扰动下的结构稳定性(structural stability)[31]。这是拓扑式的整体性观点。另一方面,是统计式的整体性观点。如对非决定论的马尔可夫过程,概率论中的各种极限定理[32]的应用,如大数定律、中心极限定理和遍历定理[33],都能揭示出在不同意义上的稳健性。

进化博弈理论的主题之一是探讨,从长期和大范围来看,博弈者通过学习与进化,他们的行为模式在极限或统计意义上是什么[34],以此为经典博弈理论中的理性行为(包括均衡行为)提供合理化论证(justification)。这样,足够长时间的试错、学习、调整和适应机制就与关于博弈的“知识系统”起到类似的作用。特别地,针对纳什均衡及其精炼(如进化稳定策略[35]),有众多结果刻画了在什么条件下,均衡解可以看作是进化和学习的收敛或统计意义上的近似,即Young (1998662)所谓的“高理性的解概念能够从低理性的环境中涌现,如果我们赋予这个过程足够的时间进化。换句话说,社会反馈机制可以取代在个体方面的知识和推理能力的高水平。”

当然,现在的文献过于集中在收敛过程上了,而非线性动力系统向我们揭示出现实世界可能具有出人意料的复杂性。人类社会的博弈历史也体现出这种复杂性,甚至学习和进化本身就会导致这种复杂性循环和混沌(Ponti, 2000; Schonhofer, 1999)。

详细罗列这个快速发展着的领域的成果几乎是一项不可能的任务,也不是我们此处的重点。我们讨论几个基础问题,这些问题可能只有在后文强调的主观博弈的框架内才会得到更好的处理。

其一,对长期(long-run)行为的关注意味着我们(作为研究者和观察者)隐含地假设进化(收敛)速度是很快的,这样我们才会把关注的焦点转向博弈者在重复着的博弈场景中的极限行为,而不是那些稍纵即逝而不易观察的短期行为。如果在一个变革不断发生而几乎不可预见的世界中,我们如何知道博弈者处在进化过程中还是进化已经完成?

其二,Mailath(19981355)所描述的,进化博弈理论假设博弈者“不相信或理解,他们自身的行为潜在地影响其对手的未来行动,并且他们不考虑对手也类似地调整自身行为的可能性”;“他们做出行为时好像世界是固定的,即使他们自身的行为也向他们揭示出并非如此”。

其三,几乎所有目前研究进化博弈的文献都是假设同一个博弈场景重复出现,或者说今天的博弈结局并不影响明天的博弈环境。那么,如同区分均衡策略行为与趋向均衡的试错、学习和适应行为,博弈者如何认识两个不同博弈合成的场景?其中一个是固定而重复上演的,一个是新涌现的舞台。如果不能识别这两者,那就永远处于进化和学习过程中。

其四,与知识论框架同样,现在的进化博弈模型还没有很好地处理知识创新和技术进步。这是因为大部分模型通常是在环境和技术[36]不变的假设下,探讨博弈者如何通过试错和学习来选择合理策略与行为的。在多人互动的局势内,由于创新的本质在于,它至少对某些博弈者来说是“无知(ignorance)”的,从而博弈者之间存在异质性,但进化博弈的对称化处理通过博弈者能够模仿的预设把这个特点给掩盖了。也就是说,在进化博弈的框架内,创新和知识进步成了不证自明的前提。但是,在固定游戏中通过学习搜寻到最优(均衡)策略(博弈结构固定)与创新游戏的玩法(发现新的博弈结构)是不同的两回事。把通过试错脱离一个过去的博弈结构及其均衡的行为简单地看作一种趋向均衡的行为,容易漏掉一些重要的信息。

其五,人们为什么会去通过试错学习新知识(所谓实验中的最初行为,这些初始条件几乎就决定了最后收敛的路径),似乎只能在程序理性的角度上理解。这个问题本质上与“不知晓(unawareness)”、“信息价值(value of information)”、“逻辑全知(logical omniscience)”和多样性(diversity)问题有关。在直觉上,程序(procedural )理性与实体(substantive)理性[37]是不同的。从元理论的角度看,复杂的实体理性可以解释另一层次上简单的程序理性,譬如我们考虑计算复杂性等有界理性限制,那么程序理性可以看作是决策最优性与决策成本之间的权衡。只要我们假设未来自然状态至少在“知晓(awareness)”的意义上是完全可知的,那么把程序理性与实体理性看作等价的就是可取的[38]Modica & Rustichini1999)关于“不知晓”问题的结果可以作为一个佐证。但这种处理只有在个体决策的观点上才有意义;而在多人互动局势里,由于涉及到不同博弈者的主观模型之间的同构,经典的均衡分析似乎不能抓住问题的复杂性,而进化博弈把这个问题简单遮蔽掉了。

 

 

变化世界中的主观博弈

 

到这里才接触到主观博弈,未免有点跑题了。我们这样处理的理由在于,主观博弈框架,不是对经典博弈论和进化博弈论完全抛弃而推倒重来。它是试图给出一个更一般化的观念,使得知识论与进化论,作为两个互补的观念,在主观博弈框架里可以实现某种结合。只不过,主观博弈对博弈的物理结构和知识系统的理解更宽泛。

何谓一个博弈?把整个历史看作唯一一个博弈还是把它看作一个个博弈的连接?我们如何能够在一条流动的河中把其中的一个过程片断看作一个可以隔离开分析的博弈?我们应该注意到,鲁宾斯坦强调“把一个博弈看作被博弈者所同时认识到的包含于一个特殊局势的相关要素的充分描述,胜于看作博弈的物理规则的表达”(Rubinstein, 1991, 917);“如果我们采用博弈不是世界的物理规则的严格描述的观点,那么一个博弈论模型应该只包括那些被博弈者觉察为相关的要素” (Rubinstein, 1991, 919)。这样的博弈论不讨论历史和过程,它关注的是结果,即“博弈论处理规则性(regularity) (Rubinstein, 1991, 921)。鲁宾斯坦引用卡尔纳普的说法:“我们在日常生活中做出的观察,正如科学中的更系统的观察一样,揭示出世界中的特定重复性或规则性”。这也正是罗素的看法,“虽然这有点象是悖论,然而所有的精确科学都被近似性这个概念支配着”[39]

但我们也可以把社会的博弈历史看作一个从过去到现在又延展到将来的“流形”[40],这个流形由沿着时间之矢的一系列局部博弈过程所构成。世界的历史过程可以看作一个个局部片断的合成,每个局部片断解释为人们可能达成共同理解的最小博弈[41],反映了博弈者的有限理性使其只能以有限和局部的眼光看待世界,从而也使得他们的行为可能在研究者看来像是“短视”的(myopic)。每个局部博弈过程都是一个特定博弈实现均衡的过程,它基于以前的博弈均衡,从一个随机突变[42]开始,以实现某个(纳什)均衡为结束。这个局部博弈实现均衡的过程是一个“固定物理结构”的博弈的反复发生[43]。每个时期(period),博弈者根据自己的主观信念系统以及他关于博弈的解概念的知识选择一个特定(均衡)策略。那么主观博弈就给这个流形赋予一个局部的微观坐标系。

我们简单讨论一下主观博弈框架与客观博弈框架在博弈者的知识系统方面的细微区别。

在关于解概念的知识论基础中,博弈结构,特别是博弈的结算函数(或者,如豪尔绍尼所强调的,关于结算函数的概率分布)通常被假设是普遍知识(即使在单人贝叶斯博弈中关于结算函数的条件也是不可缺少的)。结算函数可以认为是反映了物理规律和博弈者的技术约束的共同作用。博弈者怎么能在博弈前就知道所有决定博弈结果的物理规律呢?我们对将来的结算函数的知识可能只有我们到了将来才部分的知道。如果我们把它看作是博弈者“内部主观世界”的成分,那么不同博弈者之间是如何实现了这种一致性的呢?

按照豪尔绍尼(Harsanyi, 1967-8关于不完全信息博弈的贝叶斯处理,博弈者关于博弈结构(包括博弈者集合,每个博弈者的行动空间,结算函数)的不确定性都可以转化为关于结算函数的不确定性。博弈者集合的不确定性,即一个博弈者是否是特定博弈的参与者,可以通过他被假设“在这个博弈外”时他只被允许有一个可行行动(“不参与”),而转化为关于其可行行动集合的不确定性;关于某个特定行动对某个博弈者是否可行的不确定性,通过规定他在使用假设为不可行的行动时将得到非常坏的结果,可以转化为结果如何依赖于行动的不确定性;关于结果如何依赖于行动的不确定性和对结果的偏好的不确定性,可以通过要求从可行行动组合集合到效用的结算函数依赖于自然状态而得到统一。

另外,如豪尔绍尼所强调的,一个不完全信息的局势除了基本的外部物理世界的不确定性因素,还包括主观上的每个人的信念,信念的信念,如此以至无穷。一个不完全信息情形的完全刻画应该包括这样一个无穷层次。那么,能否做到“任何由一个信念阶梯(belief hierarchy)所完全描述的不完全信息的局势,等价于一个标准的被普遍地知道的非对称信息模型中的一个世界状态”?Mertens & Zamir (1985)等人的工作表明,在一贯性(coherency)[44]等条件下,能够构造足够大的泛信息结构来描述几乎所有的不完全信息的博弈局面。不完全信息通过每个博弈者有不同的类型(type)来体现,每个博弈者都知道自己的类型,而其他人只知道他的类型空间并有一个关于他的类型的信念(以一个概率分布表示)。所以“一个博弈者的类型是他所知道的不是普遍知识的一切的概括”,那么一个博弈者关于博弈的不完全信息就转化为他关于其他博弈者类型的不完美信息。这样,不完全信息的博弈可以通过探讨信息完全但不完美的贝叶斯博弈来间接研究。进一步,如果博弈者之间关于类型空间至少存在一个普遍知道的先验概率分布(common prior),则应用纳什均衡存在性定理可得,必然存在一个贝叶斯-纳什均衡。

上述经典博弈论对一个博弈局面的处理,我们之所以强调它是一种客观博弈理论框架,因为这样的处理把博弈模型看作博弈者之间的“普遍知识”。我们知道,博弈模型是研究者的建构[45],而“共同模型”假设就使得博弈者几乎[46]像上帝一样具备关于博弈的“客观知识”。

超越模型(理论)是完全的且是博弈者所共知的假设[47],我们就进入了一个更具弹性的主观博弈的范式。而且我们能够弥补进化博弈框架对一次性博弈过程可能过于简化的处理。我们假设研究者[48]知道所有博弈者的所有“主观”信息结构和解概念,每个博弈者的“主观模型”与研究者的“客观模型”比较都是不完整的。每个博弈者的主观信息结构[49]是他对博弈局势的一个了解。受其知识的局限,博弈者只能在一个复杂性有界的范围内选择构建主观模型。而在他的主观世界中,他采用某个解概念[50],譬如纳什均衡选择其策略或行动。这种运用博弈理论的能力可以看作是从过去的进化历史中习得的。

博弈者每个时期的行为,以及这些行为的结果,使得每个博弈者在下一时期会修正其主观博弈框架,形成关于其对手的新的预期并据之做出最优反应。在客观博弈中,知识的精炼和更新是按照贝叶斯公式,通过先验概率计算后验概率的方式进行的。我们知道,如果先验概率为零的事件发生了,没有办法计算后验概率[51]。而创新[52]的特征恰恰在于,新的知识和新的观念博弈者的主观世界中涌现。这是一个非贝叶斯学习的过程。人们通过试错、学习和信息交流(communication)等发现博弈的客观结构。当时间足够地长,根据进化博弈的众多成果,我们可以乐观地认为,所有博弈者的行为和主观知识结构会收敛到一个稳定的客观博弈均衡(或者可以用客观博弈均衡来模拟)[53],从而博弈者的行为不再发生单方面调整,也就完成了制度变迁过程。这个框架内还可以施加种种(在研究者看来)合理的限制以得到更明确的关于博弈如何进行的描述[54]

主观博弈的研究规划已经由Feinberg (2001)Greenberg (1996)Kaneko & Matsui (1999)Nau (1999)[55]等人沿着不同方向发展起来, Aoki (1998)也应用于制度变迁的分析。相对于客观博弈,其价值可以通过下棋的例子说明。后向归纳观念曾被策梅罗用来证明一个定理,其推论是,象国际象棋、中国象棋、围棋等游戏本质上存在最优下法。在这种理想的客观博弈[56]中,任何博弈者都不能利用对手的无知获得好处,但是我们都知道,现实世界里这些游戏的胜负往往取决于谁比对手更少犯错误。换句话说,真实世界里的博弈就是如何利用对手的无知取胜的艺术。这个特征在主观博弈的框架内能得到更好的解释。

博弈的主观处理的一个不利之处是,我们只能得到非常弱的解概念[57]。这也正是最近关于很多纳什均衡解的一般化概念所揭示的,如猜测均衡(conjectural equilibrium) Battigalli and Danilo Guaitoli (1994) [58]或可理性化的猜测均衡 (rationalizable conjectural equilibrium) Gilli, 1999Rubinstein & Wolinsky, 1994)、自我巩固均衡(self-confirming equilibrium)Fudenburg & Levine, 1993; Dekel, Fudenberg & Levine,1999)、主观均衡(subjective equilibrium)Kalai & Lehrer, 1993b1995),幻想均衡(mirage equilibrium(Sakovics2001)Ewerhart (2002)通过要求博弈者事前证明其行为的合理性以及区分“真的”与“可证的”,表明弱劣策略重复剔除是可行的解概念。

较弱的解概念意味着较弱的理论预见性(prediction)。我们知道,即使经典博弈理论其预见性也受两个问题的困扰。一是许多博弈中的均衡策略是混合策略;二是,即便如策略稳定性这样的客观博弈的几乎最强的解概念也只能接受集值解,允许多重均衡。

但如果我们接受非严格决定论的世界观,那么从现实性的角度考虑,这毋宁说是一个优点。

解概念给出了博弈可能如何进行的一个范围,即它论证了某些关于博弈会如何进行的描述不是合理的;如果辅以其他条件,似乎我们能够进一步缩小这个范围,譬如经典博弈论中对混合策略的“纯化”处理、焦点效应以及豪尔绍尼与塞尔滕提倡的均衡筛选方案。这样的处理在很多情况下使得某个特定博弈成为可预言的。但将来某种程度上是现在选择的结果,而现在的选择又基于对未来的预期,这使得现在与将来之间的关系上有一种内禀的随机性[59]。如“押钱”博弈所揭示的,这本质上是运气和随机性决定的[60]

另外,博弈的物理结构使得存在多重均衡时,主观博弈及其持续调整[61]会使得社会落入不同的局部稳定状态中,这应该是我们从历史和现实里观察到的文化和制度的多样性与复杂性的一个来源;而主观知识相对于全局的不稳定性也会导致在制度演进过程中出现博弈者的行为模式及其结果的宏观跃迁。

这样一种世界观,意味着主观博弈的过程和细节是不可完全预见的,制度变迁是本质上不可设计的。但我们似乎应该庆幸我们刚好生活在这样一个世界里。戴森有句话:如果少了一致性,宇宙就毫无伟大之处;如果缺乏多样性,世界也就失去了自由。严格决定论的世界里,我们活着意味着荒诞;而完全随机的世界里我们就没有任何可资凭借的知识,我们活着纯粹是运气使然,而从长远的眼光看我们都该死掉的(凯恩斯)[62]。这样一种非严格决定论的得出,可能是以一种“人择原理(anthropic principle)”作基础的,即我们如此看待世界,是因为我们恰好生在这样一个世界里。

 

结语

 

最后,让我们考虑一个自我相关问题。现实中,研究者选择了一个理论,他或其他人可能会选择与此理论相应的行为,那么理论能解释把这个因素包含在内的整个过程吗?特别地,这个问题等价于,制度变迁是可以完全事前设计的吗?从哥德尔定理给我们的启发,我不那么乐观和自信。

我更倾向于把理论看作一种修辞(rhetoric),一种我们劝说别人(譬如现实社会中的制度设计者)的方式,甚至是我们追逐利益时表现“谈判力量”(bargaining power)的工具。

所以让我们强调两个制度性结论。

即使作为程序理性,通畅的信息渠道和充分的交流也是效率和稳定性的有力支持。关于博弈是重复的信念可以通过记忆和信息交流机制(device)而得知,它能够与仲裁者的强制起到同样作用。廉价交谈(cheap talk)也能够减少在多重均衡中选择时的协同失败。实际上,博弈的过程同时就是交流的过程。

一个能够实现知识创新和制度变迁的社会,应该是一个充分允许个体自由选择的社会。我们是在试错中学习、进化的[63]。并且,我们的社会已经进化出一些基本的制度,它们的稳健性使我们不致于在试错中跌入万丈深渊,因为“任凭风浪动,稳坐钓鱼船”可能不过是等待另一种失败。命中注定,我们是在一个无底的棋盘里进行永恒的博弈,不管是用理论,还是我们的存在本身。但重要的是,我们在博弈。

 

 

 

 



*感谢汪丁丁教授的评论,但一切错误和含混之处皆由作者负责。本文的写作得到复旦大学新政治经济学研究中心的资助。

[1] 取决于我们认为人们是如何决策的,即关于博弈的何种解概念是合理的。

[2] 传统上,机制设计理论分为分别关注信息和激励问题的实现(realization)与执行(implementation)理论。我们主要考察执行理论。

[3] 参加Maskin & Sjostrom (2002)

[4]在不完全信息下的贝叶斯博弈中,每个自然状态是特定博弈者类型的组合,即

[5] 此时我们认为有一种“打破平局”的方法。

[6]不同的社会选择规则或社会选择函数(如多数规则、边沁型功利主义社会福利函数、罗尔斯型最大最小规则等)代表了社会的多种价值标准的组合,如帕雷托效率、匿名性、目标中性、单调性、非独裁性、哈蒙德公正性等。

[7] 展开型机制在文献中也得到比较充分的研究。这里我们取冯·诺依曼和摩根斯顿所提出并被Kohlberg & Mertens (1986)特别强调的观点,即一个展开型博弈中的主要内容可以体现在策略型中。

[8] 机制设计文献中对其它解概念也有探讨。本文主要讨论纳什均衡。

[9] 在贝叶斯博弈中,策略是状态依赖的,也就是说它是函数

[10] 文献中广泛探讨了各种强弱不同的执行。

[11] 以经典的所罗门王判断真假母亲的故事为例,他知道在两种不同情况(自然状态)下真假母亲的偏好,也知道此时最好的结果是什么。

[12] 现实的法律制度中,特别是在纠纷解决中,查证确认(verify)何种事情发生(处于哪个自然状态集合中)是非常重要的,这本质上由查证技术所决定。参考后面关于显示原理的讨论。

[13] 但一个社会的价值目标体系与相应制度如何共同进化是更重要的。这个问题与个人偏好进化问题都属当代经济学的前沿研究。

[14] 社会选择理论最近的重要成果之一是考察不同价值标准之间的折中权衡(trade-off)问题。我们姑且认为此问题已得到解决,至少在现实社会中不得不解决。

[15] Gibbard-Satterthwaite占优策略执行的不可能性定理。策略性操纵与阿罗定理中的“不相关备选方案的独立性”有关。

[16] 当现实中的设计者和实施者是一个特殊的博弈者,如个人或组织时,这个问题显得越发突出。

[17]社会选择规则或函数的定义域也体现在这个实体博弈中。

[18] Maskin & Tirole (1999)中就是这样处理的。

[19]单纯从机制设计理论来考虑,有些现实制度问题是很简单的。如高空抛掷物致人受伤适用法律上“无过错责任推定”的例子。为什么不能通过一个简单的“显示机制”来让那个肇事者站出来呢?譬如,如果有人承认,那么他只承担实际发生的损失;否则,每个人都承担十倍的惩罚。显然,承认对肇事者而言是一个占优策略。但这样的机制可能会受到如下的疑问:如果肇事者有特殊的偏好(他有钱,以此种方式取乐),或者承认会影响以后的处境,也就是说机制引出的博弈不是一次就完,或者他脑筋有点不清晰(不那么理性),那么即便这些都是小概率情形,这个机制也太残酷了。

 

[20]如果一项制度的运行需要无穷复杂的知识,从而超出人们的能力之外,它是不可能被良好地实施的,其目标也就难以充分实现。

[21]如果一项制度在人们出现微小失误时会导致巨大的后果,或者在环境发生微小变化时同样的行动选择会出现大相径庭的结局,那么遵循这种行为模式的决策者就很难成为进化中的成功者。好的制度应该能够避免或减少这种灾难性。机制设计文献中从很多方面(譬如博弈者的知识,不同的解概念)讨论了稳健性。

[22]由于人们的知识或基于其知识的制度不可能是完备的,在很多情形下人们的行动只能被限制在一个特定空间内而不能做进一步的刻划或约束。这是个人自由和不完全契约等的根源所在。另外,在对有些人的行动不能完全确证的情形下,故意赋予制度或契约一定的模糊可能更有利于合理社会目标的实现。

[23] 一件事情是普遍知识,意味着所有人都知道它,所有人都知道所有人都知道它,如此以至无穷。

[24]所以迪克尔和古勒正确地指出,为博弈论提供知识论基础有一个重要的隐含前提,即博弈者不仅知道博弈的物理结构,而且象一个系统外的观察者一样“知道”博弈的知识结构,即“普遍知识的定义的标准解释隐含地假设了模型本身被普遍地知道”(Dekel & Gul 1997 98)。

[25]拉普拉斯在《概率论》引言中生动地描述了这样一个严格决定论的图象:“让我们想象有个精灵,它知道在一定时刻的自然界里一切的作用力和组成这个世界的一切东西的位置;让我们又假定,这个精灵能够用数学分析来处理这些数据。由此,它能够得到这样的结果:把宇宙中最大物体的运动和最轻原子的运动都包括在同一个公式里。对于这个精灵来说,没有不确定的东西。过去和未来都会呈现在它的眼前。”

[26]参见Weibull1995)、Samuelson 1997)和Fudenburg & Levine 1998)。

[27] 所以,我们基本不涉及“学习”理论。文中的学习通常指进化过程中的适应性行为,譬如复制和模仿等调整行为。

[28] 这两个观念之间通过复杂性(complexity)或多样性(diversity)联结起来。

[29] Lyapunov稳定性意味着小的初始偏离不会带来大的结局偏离。

[30] 渐近稳定性意味着初始状态的小偏离可以被吸收掉。

[31] 廖山涛先生指出:“结构稳定性这一概念之所以广泛为人们接受,是由于在实际应用中所取的数学模型,比起真实现象来,往往经过了简化,因此要使所取模型成为有效,就希望虽有小扰动仍能有某种程度不变的结构”。Anderlini & Canning (2001)表明,结构稳定性等价于对有限理性的稳健性。

[32]柯尔莫哥洛夫指出:“概率论的认识论的价值只有通过极限定理才能被揭示,没有极限定理就不可能去理解概率论的基本概念的真正含义。”

[33] 即所谓通俗的说法“相平均=时间平均”。

[34]大部分机制设计问题可以运用均衡解概念,主要是因为只要统计意义上成立即可。我们也应该注意到最近已经出现讨论“进化执行”的文献。

[35] DeMichelis & Ritzberger (2000)对几乎最强纳什均衡的精炼,由Kohlberg & Mertens (1986)所提出并被Mertens等人进一步完善的“策略稳定解”,给出了一个进化博弈的“合理证明”。

[36]博弈者的技术决定了他们所处的环境的特征(如可利用的资源),以及他们的行为与环境共同作用所能导致的结果,这是通过结算函数来体现的。

[37] Osborne & Ariel Rubinstein (1997)给出了程序理性观念下的均衡概念。

[38] Rosenthal (1993)Blonski (1999)讨论了所谓的“拇指规则”问题,后者特别强调了在什么意义上拇指规则与新古典实体理性的一致性。

[39] 转引自西蒙·辛格《费马大定理》。

[40] 这里我们仅仅借用数学中的流形概念,以表达这样一个类似的观念。毫无疑问它需要更严格更细致的研究。

[41]如果我们接受,在这个世界的某个局部,博弈者在他们的视界内认为这个局部是相对独立于其它世界的。这类似于局部均衡的观念。

[42] 我们持一种非严格决定论的世界观,认为在一个基本层次上,与“测不准原理”所揭示的随机“量子跃迁”类似,总是存在自发的随机突变。这种随机突变可能表现在环境等物理性结构中,也可能通过博弈者的知识结构而表现出。

[43] 这里所谓博弈的反复发生与进化博弈理论中的意义相同。注意到经典博弈论中重复博弈是“一个博弈”,因为如鲁宾斯坦所强调的,博弈者认为每阶段的行动与后面阶段的行动有关联,从而重复的囚徒困境在“四人帮”模型中才会出现合作结果。

[44] 阶信念导出的边际分布等于 阶信念。

[45] 我们暂不考虑所谓模型与现实之间的关系。鲁宾斯坦认为 “一个(博弈)模型是我们关于现实的理解的近似,而不是现实的客观描述的近似” ,马斯金也强调机制设计理论是关于现实世界的漫画式描述。但只要我们按照直觉上合理的标准较好地刻画我们关于现实的观念(通过建立博弈模型),我们就会收获到作为副产品的“对现实的客观描述的近似”。

[46] 我们此处用“几乎”是因为毕竟在有些博弈中存在不完美的知识。

[47]放弃“共同模型”、“普遍先验”假设,相当于假设博弈者会犯错误。

[48]我们要探讨的就是这样一个研究者视角下的“博弈及其解概念”。

[49]不同主观模型的代表即著名的对话:“子非鱼,安知鱼之乐?”“子非我,安知我不知鱼之乐”。

[50] 选择何种博弈解概念为主观博弈的“元解概念”是颇费思量的事情。关于解概念的“稳健性”刻画的文献中通常以纳什均衡的某种强化(譬如严格均衡)为“元解概念”。

[51] 关于纳什均衡的精炼的文献中,主要是通过非均衡路径(零概率事件,或者如赛而腾的处理小概率事件)上的行为来排除不具备自我实施性质的均衡。

[52]标准的博弈理论假设博弈者有共同的博弈模型,而且与客观观察者的一致(即使对个体亦然),从而不会出现动态不一致(dynamical inconsistency)。哥德尔有句话,“人生的意义在于事与愿违以及对此的克服”,但在经典博弈论的框架内,没有事与愿违和惊诧。另外,非完美记忆问题也只有在主观博弈(从而区分观察者和博弈者)的框架内才真正有意义。

[53] 也有可能博弈者永远处于学习和进化过程中以至 “永远不一致”,虽然他们会“认同不一致”。

[54] 我们将另外讨论这个框架可能的数学形式。

[55] Nau特别强调了“不完全模型”,即模型不是共同的。但他建议的以“无套利”(no arbitrage)作为更基本的前提似乎难以接受,因为我们从经典博弈论中的“无交易(no-trade)”定理得到的启发是,恰恰只有在非共同模型时才会出现套利。

[56] 计算机击败国际象棋头号棋手卡斯帕罗夫的事实使我们相信这不是永远实现不了的事情。

[57]如同量子力学中的“多重可能世界”观点,理论的预见力必然要降低了。

[58]这是一个渊源可上溯到哈耶克(Hayek, 1945)并经汉恩强调的观念。

[59] Foster & Young (2002)表明了,不管博弈者使用什么样的学习规则,这样一个反馈环都导致对其对手的下一期行为不能完全预见。这个结果在精神上类似于Nachbar (1995)所强调的在重复博弈中预见性与最优性之间的内在冲突。更一般地,Wolpert (1999)表述了关于未来不可计算的观念。

[60]事前的混合策略均衡,在纯策略选择的对称破缺之后,会导致可能与非均衡策略同样的结果。譬如,在田忌赛马的故事中,均衡混合策略是随机安排出场次序。但可能照样会出现孙膑所策划的情形。所以微观或局部合理的行为,可能在宏观上表现出随机性。当然局部随机性的事物也可能宏观上表现出有序性。

[61]违背制度的行为(在近似执行和混合策略的意义上),从学习和进化的角度是很容易理解的。主观博弈能够提供另外一种解释。

[62]如果事后实际结果对事前预期的均衡结果的偏离是如此之大以至成为不可接受的(譬如生与死),那么博弈者就几乎不能在进化过程中生存下去(除非我们总有运气)。所以博弈者能够生存下来意味着他们关于外部世界的模型在某种意义上是稳健的。或者说,他们(至少在群体意义上)几乎总是能够避开那些“生死一线牵”的临界状态。

[63] Foster and H. Peyton Young (1998)Fudenberg & E. Maskin (1990)也都表明随机因素(哪怕是犯傻)在学习并收敛到均衡中的重要性。

 

 

 

参考文献

 

Masahiko Aoki (1998): The subjective game form and institutional evolution as punctuated equilibrium, Stanford University, Discussion Paper.

青木昌彦(2001):比较制度分析,周黎安译,上海远东出版社。

Kenneth J. Arrow & Leonid Hurwicz: An optimality criterion for decision-making under ignorance, in Kenneth J. Arrow & Leonid Hurwicz: Studies in resources allocation processes, 463-471, 1977.

Robert Aumann & Adam Brandenburger (1995): Epistemic conditions for Nash equilibrium, EM 63(5), 1161-1180.

Sandeep Baliga, Luis C. Corchon & Tomas Sjostrom: The theory of implementation when the planner is a player, JET 77, 15-33, 1997.

Cabrales, A. (1999): Adaptive dynamics and the implementation problem with complete information., Journal of Economic Theory, 86:159-184.

Luis C. Corchon: The theory of implementation of socially optimal decision in economics. MacMillan Press Ltd., 1996.

Eddie Dekel & Faruk Gul: Rationality and knowledge in game theory, in David M. Kreps & Kenneth F. Wallis(eds.): Advances in economics and econometrics: theory and applications: seventh world congress, vol. I, Cambridge University Press, 1997.

Stefano DeMichelis & Klaus Ritzberger (2003): From evolutionary to strategic stability, Journal of Economic Theory 113, 61-75.

Pradeep Dubey (1986): Inefficiency of Nash equilibria, in Mathematics of Operations Research vol. 11, no. 1, 1-8.

Yossi Feinberg (2001): Subjective formulation and analysis of games and solutions. Stanford University Discussion Paper.

Dean P. Foster and H. Peyton Young (1998): Learning with hazy beliefs, in W. Leifellner & E. Kohler (eds.): Game theory, experience, rationality, 187-196, Netherland: Kluwer Academic Pulishers.

Dean P. Foster and H. Peyton Young (2001): On the impossibility of predicting the behavior of rational agents, Proceedings of the National Academy of Sciences vol. 98 (2001), 12848-12853.

Drew Fudenberg & David Levine (1993): Self-confirming equilibrium, Econometrica vol. 61 issue 3, 523-545.

Drew Fudenberg & David Levine: The theory of learning in games. MIT, 1998.

Drew Fudenberg & E. Maskin (1990): Evolution and Cooperation in Noisy Repeated Games, Ameican Economic Reciew vol. 80 no. 2, 274-279.

John D. Geanakoplos: Common knowledge, in Robert Aumann & Sergiu Hart(ed.): Handbook of game theory with economic applications, vol. II, Elsevier Science B., 1994.

J. Greenberg (1996): Towering Over Babel: Worlds Apart-But Acting Together, Discussion Paper, McGill University.

F. A. Hayek (1960): The constitution of liberty, London: Routledge & Kegan Paul.

Leonid Hurwicz: Implementation and enforcement in institutional modeling, in W. Barnett, M Hinich & N. Schofield (eds.): Political economy: institutions, competition and representation, 51-59, Cambridge University Press, 1992.

Leonid Hurwicz: Toward a framework for analyzing instituions and institutional change, in Samuel Bowles, Herbert Gintis & Bo Gustafsson (eds.): Markets and democracy: participation, accountability and efficiency, 51-67, Cambridge University Press, 1993.

Ehud Kalai & Ehud Lehrer (1995): Subjective games and equilibria, Games and Economic Behavior 8, 123-163.

Michihiro Kandori (1997): Evolutionary game theory in economics, in David M. Kreps & Kenneth F. Wallis(eds.): Advances in economics and econometrics: theory and applications: seventh world congress, vol. I, Cambridge University Press.

Mamoru Kaneko & Akihiko Matsui (1999): Inductive game theory: discrimination and prejudices, Journal of public economic theory, 1(1), 101-37.

Elon Kohlberg & Jean-Francois Mertens (1986): On the strategic stability of equilibria, Econometrica 54(5), 1003-1037.

George Mailath (1998): Do people play Nash equilibrium? Lessons from evolutionary game theory,  Journal of Economic Literature Vol. XXXVI 1347-1374.

Ramon Marimon (1997): Learning from learning in economics, in David M. Kreps & Kenneth F. Wallis(eds.): Advances in economics and econometrics: theory and applications: seventh world congress, vol. I, Cambridge University Press.

E. Maskin & T. Sjostrom (2002): Implementation theory. In K. J. Arrow, A. K. Sen, and Kotaro Suzumura, editors, Handbook of Social Choice Theory and Welfare Volume 1. North-Holland, Amsterdam.

Eric Maskin & Jean Tirole: Unforeseen contingencies and incomplete contracts, RES 66, 83-114, 1999.

Jean-Francois Mertens & Shmuel Zamir (1985): Formulation of Bayesian analysis for games with incomplete information, International Journal of Game Theory 14(1), 1-29.

John H. Nachbar: Prediction, Optimization, and Learning in Repeated Games, Econometrica vol. 65 no. 2, 279-305, 1997.

Robert Nau (1999): Arbitrage, incomplete models, and interactive rationality, Fuqua School of Business, Duke University, Discussion Paper.

Ben Polak (1999): Epistemic conditions for Nash equilibrium, and common knowledge of rationality, Econometrica, 67, 673-676.

Ariel Rubinstein (1991): Comments on the interpretation of game theory, EM 59-4, 909-924.

Larry Samuelson (1997): Evolutionary games and equilibrium selection, MIT.

Brian Skyrms (1996): Evolution of the social contract, Cambridge University Press.

Jorgen W. Weibull (1995): Evolutionary game theory, MIT.

Jorgen W. Weibull (1998a): Evolution, rationality and equilibrium in games, European Economic Review 42, 641-649.

Jorgen W. Weibull (1998b): What have we learned from evolutionary game theory so far? Discussion Paper.

David H. Wolpert (1999): An incompleteness theorem for calculating the future, Santa Fe Institute, Discussion Paper.

H. Peyton Young (1998): Individual learning and social rationality, European Economic Review 42, 651-663.

 












中国法律经济学网登载此文出于学术研究之目的,绝不意味着中国法律经济学网赞同其观点或证实其描述。以上内容仅供研究者学习与交流,无意侵犯版权。如有侵犯您的利益,请告知。我们将尽快删除。

加入日期:2007/1/20 13:17:41浏览次数:2902
发表评论
名号:
内容:
验证: 5036
法律经济学网
联系站长: 柯华庆 lawgame@263.net 京ICP备09028584号
北京市昌平区中国政法大学法学院(102249)
本网站由卡卡鱼网提供技术支持 网站总访问量:1996356