趣味科技导航网
文章98463324浏览8338728本站已运行896

博弈理性!推理的权变理性基础不同体系的自洽性——“蜈蚣博弈”为讨对象

导读:本文是一篇博弈理性论文范文,可作为选题参考。

张维迎人大演讲:改革困境&理性博弈【网易云阅读 爱读校园行】 视频 : 非理性博弈 1、★大学生创业过程中的行为博弈——基于理性经济人视角2、★中美灾难影视传播图景的差异------《2017》《惊天动地》等生态灾难电影为全我3、★血缘的馈赠——评吕澎《血缘的历史——1996年之前的张晓刚》4、★揭秘:三国最出色的谋略家王允为何瞬间惨死?

■ 雷煜锋贾朝文(中山大学管理学院工商管理系 广州 510()06)

◆ 中图分类号:F016 文献标识码:A内

容摘 要:一直以来,蜈蚣博弈的基于逻辑(逆推归纳法)的推导结果和试验实践的结果存在很大的偏离,以往学者从两个角度对其原因进行了研究探讨,即“数理纠正”(以Aumann( 1988)为代表)和直接否定逆推归纳法的作用(以Binmore和Bernard Walliser(1996)为代表).本文从一个新的角度——基于人的有限理性而提出的“权变理性”概念为基础,认为蜈蚣博弈的逻辑推导和试验实践,涉及两个独立的自洽的推理过程(绝对的理性和权变的理性),从这个角度出发揭示了蜈蚣博弈之中“悖论”存在的根本原因,并且对这两个独立的推理过程进行比较.同时文章涉及到推理过程中的自我实现效应的讨论,强调重视常识和细节在博弈之中所起到的作用.

关键词:蜈蚣博弈悖论 逆推归纳法权变理性 共同知识

蜈蚣博弈的研究背景

本文的关注点是1981年由罗森赛尔( RosenthaI)提出的一个动态博弈问题——“蜈蚣博弈”( Centipede Game).这个模型又被称为蜈蚣悖论( CentipedeParadox),悖论产生于模型本身的逻辑产密性与现实决策过程偏离模型预测结果所产生的矛盾.蜈蚣博弈有不同版本( Rosenthal, 1982, Megiddo, 1986,Aumann, 1988, Mc Kelvey&Palfrey,1992),而本文引用的则是最常见的一个,也就是罗森赛尔在1 981年提出的.

炒股一招先 炒股入门教程 炒股入门 百姓炒股秀 沧桑战神 8.26 创业板进入非理性博弈期 视频时长:06:27 炒股一招先 炒股入门教程 炒股入门 百姓炒股秀 沧桑战神 8.26 创业板进入非理性博弈期 播放:41191次 评论:7695人

这个“蜈蚣”模型试图模拟的是这样一种现实情况:两个合作者A&,B,当A发现B终将背叛自己,就会选择先下手为强以减小损失;而B发现A有此戒备,又会感到不安而进一步抢先行动:而A发现B居然对自己的戒备如此警惕,于是不得又进一步采取行动等猜疑的过程如此这般,反复不断.

于是,对情况进行赋值:两个参与者A和B轮流进行策略选择,可供选择的策略有两种,“合作”与“不合作”.而规则包括:A、B两次决策为一组,第一次若A决策“不合作”,则博弈终止,A、B分别获得收益n.若A决策“合作”而B决策“不合作”,博弈也立即终止,但收益变为A获得n-l而B获得n+2.如果博弈在本次决策中并未终止,则下一轮博弈A、B的收益都从n+l开始.现在假定A首先进行决策,之后是B,然后交替进行.A,B间博弈次数设为198次,起始收益为1.那么,这个博弈就可以由决策树来表示(见图1).

在这个过程中涉及到的一种重要的思考方式,叫做“逆推归纳法”,也就是说,决策者着眼于博弈最终阶段的状态,并且根据最终阶段的状态来决定当下的行为.

在图1中,如果用“逆推归纳法”来考察A是如何决策的话,就会发现A认为,在博弈的最后一步,即198步时了,B在“合作”与“不合作”之间选择时,肯定会选择“不合作”,因为根据博弈逻辑的一个基本假设,B是一个理性人,而“不合作”所带来的收益101犬于“合作”带来的收益1 00.但是,要到198步就肯定要经过197步.而在197步时,考虑到B会在下一步选择“不合作”——到时A的收益为98,小于B在下一步选择“合作”时的100 -那么A此时肯定会选择“不合作”,因为“不合作”的收益99要大于“合作”的收益98.以此类推,最后的结论是,蜈蚣博弈的纳什均衡为第一步A将选择“不合作”,各自的收益是1.

从逻辑推理来看,逆推归纳法是严密的,第一步“合作”的策略是劣势策略.然而当我们引入实验者亲身参与的时候,却与逆推归纳的结果完全相反,很少会出现参与方A在第一轮就终止博弈的情况.通常而言,参与者也不会坚持合作到最后,而是终止于博弈过程中间偏后的某个不确定的位置上.

这就产生了一个难题( paradox):严密的逻辑推理的结论,却在单纯的模型试验层面(实验者按照模型给出的虚拟情境进行决策,并不涉及其它更复杂的考虑)遭到严峻的挑战.人们所做的选择,并不依照模型以其逻辑过程为依据的预测.

对于这个悖论的经典解释,主要分成两类,其一,是Aumann等学者所做的“数理纠正”,也就是通过完善公理、定义和假设条件,以及推断结论的数学和逻辑结构(使模型更加自洽),但是没有解决蜈蚣悖论的现实与模型之间的实际冲突,而仅仅是将悖论排除出模型;其二,是Binmore和Bernard Walliser(1996)等学者对“逆推归纳法”的否定,认为这种假设不符合人的现实认知,并且在进化博弈论之中找不到与逆推归纳法相近的进化方法或机制,因此,Binmore等学者认为逆推归纳法的价值和意义值得怀疑.

从以上的两种相反的观点,我们可以看到,其中的一派从模型本身人手,可以实现自洽(自圆其说);另一派则认为逆推归纳法本身是有问题的,两派争论不休.

本文将从一个新的视角切入:在蜈蚣博弈的模型之中,逆推归纳法并非唯一能实现自洽的推理模式.人们受现实世界影响而形成的决策,同样具有自洽的能力,而使得人们不必(或者同时地,不能)寻求逆推归纳法的帮助.而这“另一种自洽”的产生,源于基于“权变理性”的认知体系和共同知识,接下来将对此进行讨论.并基于此,对一般性推理的认知基础进行讨论.

权变理性与共同知识

蜈蚣博弈的“逆推归纳法”的成立,很重要的前提之一,就是“共同知识”的假设.“共同知识”( Common Knowledge)有着一个相当形而上学的定义:当且仅当这个事件包含了一个含有这个状态的自明( self-evident)事件,我们称这个事件为参与者之间的共同知识.简单来说,就是“参与者都是理性的”,而且“参与者之间都知道对方是理性的”,而且“参与者之间都知道对方知道自己是理性的”,而且“参与者之间都知道对方知道我知道他是理性的”等听起来很绕,但这个过程就是如此地延续下去的.“蜈蚣博弈”的模型正是通过这个,让最后回合的结果递归到开始而影响最先一步的决策.

而这种共同知识,也是学者们倾向于基于人的绝对理性进行思考(绝对理性:推理过程存在一个客观的、公理化的源头,通过严格的形式逻辑得出结论)的结果.但是,现实中的人,无论是具体的实践,还是参与单纯的模型试验(比如参与蜈蚣博弈的实验者),都会引入另一种思维方式:权变理性.

权变理性指的是,既然信息无限,因此信息不可能对称,而他人可能出现非理性的思考或者行为(权变理性是基于人的有限理性而得到的),我们需要通过输入新的信息,和更强的推测能力,以做出以他人真实的想法为推理基础的结论.这个概念长久以来在证券市场之中广为流传,这些投机者认为,重要的不是证券的价值是多少,而是别人认为证券的价值是多少,即猜测对方的想法而采取相应的行动:他人认为证券的价格(以符合其价值)应该发生变化,就会采取相应的交易行为,从而使得其价格真的发生了如其预测的变化.这意味着,我们不能面对并非绝对遵循逻辑理性的人,而假设他们绝对遵循逻辑理性——用张五常( Steven Chuang)的话来说,就是“我们不能使用一只肮脏的试管,而假设它是洁净的”.由于建立在人的有限理性的基础上,权变理性和“绝对理性”就产生了相当大的区别:因为当其它参与者出现非绝对理性的行为时,权变理性也可以轻易地以其作为逻辑链的基础和开端.

具体到蜈蚣博弈(现实情况,或者仅仅是单纯的模型试验),在博弈的最初阶段,双方都明白,如果能够相信对手在下一个回合不背叛(或者概率足够大)的话,那么己方此时也不会选择背叛,原因是只要双方合作,第一个回合过关,则己方的收益也会变得更大.那么双方就开始想,对方是不是也怀有这种期许,并且愿意相信我也怀着同样的期许呢,并且愿意相信我也相信他怀有同样的期许呢——双方都不断在猜测.

这种猜测在这时候经历了关键的一步:参与者(不自觉地)引入一项从现实世界,而非模型假设之中习得的“常识”:在博弈的开始阶段,对方是可信的,理由是“人们通常不会认为博弈的开始阶段,存在巨大的背叛威胁”.凭借“常识”( Horsesense)的身份,这个理由轻而易举地成为了“共同知识”,使得信任链可以不断延伸,使得两方都估计对方有极大的概率持这样的态度.

这时候,基于对对方想法的猜测,博弈者主观地认为,与获得的收益增益相比,对方背叛的风险足够小,小得可以接受(并且对方确实没有背叛,后来的实践证明,这个猜测是正确的),于是双发都据此选择了合作.

为了更好地理解这种“权变理性”,我们引入一个比蜈蚣博弈更加简单的单次博弈——“分钱者与接受者博弈”来进行说明.这个博弈的内容是:随机选取两个陌生人分别带入两个房间,每个参加者都被告知,他或她会与另一个人配对,对方的身份不能透露.他们两个人会得到总额固定的钞票,分配方式则由他们自己来确定.但是对于分配方式有如下的规定:

参加者之间不能沟通;随机指定这两个参加者中的任意一个为提案者,让其决定两人各得多少钱;提案者提出分配的方案,另一个参加者(选择方)决定是否接受;如果接受,则按分配方案分钱,如果不接受,双方都得不到任何钱;只能提案一次,不能反复谈判.

显然,无论选择方分得的比例如何地少(只要>,0),选择方选择接受,获益都比选择拒绝提案的获益( 等于0)要大.但在实验之中,有不少的选择方拒绝了提案方对己方非常不公平的提议.GuthSchmittberger and Schwarze( 1982)最早进行了最后通牒博弈实验,有近50%的回应者拒绝了仅获得低于奖金总额20%的提议者的出价.其后,不同学者进行了多次的实验,对提议者的出价,回应者拒绝率最高的是Bolton and Zwick( 1995)进行的,有35%的出价被回应者拒绝.回应者拒绝率最低的是Eckel and Grossman( 2001)进行的实验,仍然有12%的出价被回应者拒绝.这些实验中,极少(少于7%)出现只把极少奖金分给回应者的出价.

有限理性博弈:北京晨报:治堵——理性与 的博弈

对这个模型及相关的试验.学界集中精力于“为什么选择方会非理性(非‘绝对理性’)地拒绝不公平的提案”,但本文的关注点却不在此,而在于,不但选择方不遵循“绝对理性”,而且提案者也知道选择方是不遵循“绝对理性”,而极少敢于提出诸如90/10 -类对选择方非常不公平的方案——因为“常识”显示,这种方案会被选择方拒绝.

在这里提案者就不得不运用“权变理性”,把选择方不遵循绝对理性的行为当作自己提案的逻辑基础,不得不提出平分,或者由于明白选择方对于轻微的不公平可以接受,而提出诸如55/45,60/40这样的方案(G 0 th Schmittberger and Schwarze的实验中,提议者平均把总奖金的37%分给了回应者;平均出‘价水平最高的是Roth, Prasnikar, Okuno-fujiwara, andZamir进行的实验,提议者平均把总奖金的45%分给了回应者;平均出价水平最低的是Bolton and Zwick进行的实验,提议者平均仅把总奖金的23%分给回应者).这种方案,在现实的角度来看当然是正确的(即有效的).但如果持绝对理性的立场,是不能这样判断的:认为他人非理性,缺乏一个严格的逻辑上的源头——提案者作出的事实上有效的决策,却违反了绝对理性的思考立场.

非理性的决策反而有效,严格按照理性作出的决策,反而会事实上出错,而显得很愚蠢(尝试一下按照绝对理性,作出99.99/0.01的分配方案,并且遭到拒绝而一无所获的时候,就可以很好地理解其中的意思了),这是为什么呢?

自我实现效应促成的自洽

上一段的这个疑问,事实上就是“蜈蚣悖论”的一般化提法.其答案在于:“权变理性”这种思考方式,会使得博弈双方不顾逆推归纳法反向收敛的必然起点(笫一步就选择背叛),而引入自身的生活阅历,认为对方在开始之时,背叛的概率并非百分之百,并因此主观地选择了一个起点(大多数人的选择在开始之际合作).

双方不约而同地选择合作,背叛的概率因此而被改变了,从而导致在起点上的合作变成实际上的有效选择.

于是,可以发现,在蜈蚣博弈的最初阶段:

如果参与者的“常识”是“大家相互倾向于背叛”,那么博弈的结果会证明,背叛是最优的选择.这时,“常识”没有出错;如果参与者的“常识”是“大家相互倾向于合作”,那么博弈的结果会证明,合作是最优的选择.这时,“常识”仍然没有出错.

这是非常有趣的“自我实现效应”:由于我们的认知对象就是我们的认知本身,因此我们的认知有效与否,决定因素也就是我们的认知本身:“事情之所以是这样,是因为我们认为它是这样”.因此,通过自我实现效应,人们基于权变理性的认知(凭“经验”和“常识”地认为别的参与者在最初时候会选择合作)与实践达成了统一,消解了“内部的矛盾”而达到自洽.

而同时,基于绝对理性的“蜈蚣博弈”,其模型本身的认知和实践的逻辑链,当然也是自洽的.

因此,这是两个使用了不同公设(“常识”),但是各个自洽的推理过程,情形有点像欧几里得几何和非欧几何之间的关系一样.因此,所谓“蜈蚣悖论”——“悖论”的根源在于:在推理和实践中,使用了基于不同推理基础的两个自洽的认知体系.因此,与其把蜈蚣悖论称为“centipede paradox”,给人一种”事实上不如把它称为“centipede antinomy”(antinomy有“各自自洽的二律背反”的含义)来得准确.

然而,这种“常识”会受到外部知识和信息输入的影响.比如,在课堂上给学生灌输“逆推归纳法”,反对缺乏绝对理性基础的“站不住脚的信任”,会使得参与者出现背叛的时间大大提前,而且不乏在第一步就选择背叛的参与者(没有找到相同模型下的实验,但是耶鲁大学2007年由BenPolak执教的博弈论课程上,曾经让学生做过“在0-100之间猜一个数,所猜数字最接近所有学生所猜数字平均数2/3的学生为优胜者”的实验,结果显示,在提示逆推归纳法的思路之后,学生猜的数字大幅变小(即更接近于逆推归纳法所暗示的答案,而且出现完全按照逆推归纳法思路得出结论的学生大幅增多).这时,参与者不但自身受到了“教育”的影响,并且相信其他参与者受到“教育”的影响而变得更加倾向于背叛,因此他们也就只能相应地选择背叛.

作为极端情况,当且仅当我们把所有的实验者都变成绝对理性的拥护者时,实验结果会与绝对理性假设下的推理结果一样,悖论也随之被消除了.

常识、细节与博弈的继续进行

上面提到的是“蜈蚣博弈”的最初回合.作为一个完整的分析,现在着眼它随后的回合之中的演化.既然讨论权变理性,我们需要理解参与者对于博弈的“常识”:双方都打算先通过合作谋求更大的利益,然后博弈双方再通过零和,甚至负和的内部斗争来实现自身利益的最大化.即使博弈双方意识到最终的背叛不可避免,在开始之时的合作仍旧是可被接受的,因为在开始阶段,对于合作的信心产生的来源并非一种单纯的、属于德性( Virtue)的信任,而是以对对方想法的猜测为基础的.实际上,参与者以对对方背叛概率的主观猜测为依据,计算着选择合作与背叛的收益期望值.

设A、B每人都做出一个决策时为一个回合,A在一个回合中先做决策.那么对A而言,合作的收益期望等于(l-pn)f(n)+pn.g(n),其中f( n)是博弈回合为n时,A、B全部选择合作之后A所能获得的期望收益(通常合作时间或者合作亲密度越大,收益越大);pn是在A博弈阶段为n时,选择合作之后,对方(B)背叛的概率,而设此时A收益为g(n);背叛的收益期望等于U(n),U(n)为博弈阶段为n时,A选择背叛时的收益.由蜈蚣博弈的设定可知,f(n)>,U(n)>,g(n).

虽说仅仅是比较合作的收益期望和背叛的收益期望孰大孰小.但实际操作却极为复杂,两个表达式之中,任何一个变量的确定都非常不容易,并且缺乏定量化的计算方法,即便是较为容易判断的背叛获益U(n),以及选择合作之后B背叛的情况下的收益g(n)(这两个是最基本的)也如此.

对于pn,更是不可能找到理由充足的通用判断过程:每个回合里面pn都是不同的,这是因为关于pn的猜测链永无休止,每个人的猜测会影响对方的猜测,并且由于影响对方的猜测,反过来又影响了自身的猜测,对于任何一个博弈者来说,都可以按照“我不确定你是怎么想的”一“载不确定你是怎么想我的”一“我不确定你是怎么想我怎么想你的”一“我不确定你是怎么想我怎么想你怎么想我的”等这样一直延伸;对于f( n),困难在于含有未来函数,因为第n回合的f(n),是n+l回合时选择背叛的收益U(n+1)与继续合作的收益期望f( n+l)的加权和,而f(n+l),又是n+2回合时选择背叛的收益U(n+2]与继续合作的收益期望f(n+2)的加权和等也是无休止的延递,而且不同阶段的上述权重也是不同的,这也进一步导致了准确判断的困难.

然而,权变理性是基于“有限理性”提出的.因此,有限理性的博弈者并不会真正永无终穷地沿着猜测链想下去,而在他们没有能力,没有信心预测正确的层次停止继续深入.矛盾的是,博弈者总希望试图比其它参与者考虑深入一个层次,得到优于对手一阶的“私人信息”——这就必须依靠对其它参与者的超越才能够实现.因此,我们必须首先认同人的信息收集能力和思维能力各有不同,放弃信息对称假设,才能够找出优于其它参与者的办法.

而这种办法,通常都源于学者在研究博弈的理想模型时去掉的,人的常识和直觉(此正是“权变理性”及“权变理性的共同知识”的来源和基础),以及形成模型之后,就被过滤掉的模型参量以外的非常规信息.比如,组织行为学中,通过动作、语调、用词、眼神等细节判断对方是否在说谎的学问;心理学中,通过刻板特征去判断人的性格以及可靠程度的理论;管理学里,通过一些异常的先兆,侦查部下即将独立的秘诀(比如隔离客户,拉拢其它部下等等这些方法都是人们进行博弈行为时,判断其它参与者可靠性的重要依据.

1张峰,逆推归纳法悖论探析.福连论坛(人文社会科学版),2004,12

2.张峰.蜈蚣博弈悖论引发的思考[J].湖南科技大学学报(社会科学版),2005,8(1)

3.潘天群博弈论中理性人假设的困境 经济学家,2003,(4) 4John W. Carroll. The Backward Induc-tion Argtunent.Theory and Deasion, 2000 ,48

5.Bimnore,K.Fair: Game Theory andSocial Contract [M] .MIT Press,1993

更多博弈理性论文范文

1、电视新闻评的选题和新媒体传播——深圳卫视《正午30分》“午观察”版块为例

2、《余罪》作者常书欣:曾是蹲过大牢的“古惑仔”

3、娱乐经纪人这个圈……

4、政策紧供应宽

5、管理层持股企业财务风险防范的关系

6、关于开展农村长期护理保险的若干

非理性博弈论文参考文献总结:

关于本文可作为博弈理性方面的大学硕士与本科毕业论文博弈理性论文开题报告范文和职称论文论文写作参考文献下载。

幼教爱论文 爱国教育论文 人生哲理议论文 思想政治教育实效性 地缘政治论文 字理论文

博弈理性论文写作资料视频

视频时长:29:08 耐心观察 理性操作 视频时长:24:52 42 可预见的非理性行为
去除边栏