自从上次引用了w的n次方一篇关于《The Selfish Gene》的书评后,我决定把之前的书拿出来再读一遍。也许我第一次阅读时觉得作者过于啰嗦,基本放弃阅读,但这次耐着性子重新阅读,却发现收获很大。因为内容太多,而且非常底层思想,所以打算用几次机会讲一些里面比较有意思的内容。
关于策略的稳定性话题在之前我写的另一篇文章《策略选择的科学探讨-投资思考随笔(49)》当中有一些描述,大家有兴趣可以查阅,这里是从另一个维度来看待自私的基因驱动下的策略演进及稳定性话题。
什么是基因及身体(生存机器)
这里不过多进行赘述,直接给出一些重要的背景信息:
基因本质可以理解为一个以收益最大化为目标的算法。简单来说,因此自然资源是有限的,更能够在复杂环境中复制自我的基因算法会逐渐在环境中占据更为主要的位置而挤压更弱的基因生存空间。
变异:变异来自于基因自然复制过程中的差错,这个给予算法不断演进的可能性,从自然选择的角度来看,有益的变异(能够长期收益最大化)会被保留下来,而不利的变异会被淘汰,从而实现了对自然的更优化适应。
躯体,不论是动植物,都是各种基因在自然演进过程中选择的生存工具,所谓的Survival machine。这个机器的程序编制就是为了完成对作为一个整体的全部基因来说最有益的任何事情。
对于一个survival machine而言,另一个survival machine组成了环境的一部分,是它的基因目标(收益最大化)的拦路虎,或者可以被利用的一部分。不过与没有生命的岩石、河流等物质不同,这些另外的survival machine也代表了另外的基因目标,因此他们会对我们的反应做出回击,因此就可能产生复杂的博弈关系。
生存机器与环境:负反馈、学习、预测与意识的形成
生存机器的行为有一个最突出的特征,就是明显的目的性。它所牵涉的基本原理就是我们称之为负反馈(Negative feedback)的原理。
它是这样发挥作用的:这种运转起来好像带有自觉目的的“目的机器”配有某种度量装置,它能测量出事物的当前状态和“要求达到的”状态之间的差距,机器的这种结构方式使它能在差距越大时运转得越快。这样,机器能够自动地减少差距--负反馈的原理就在于此--在“要求达到的”状态实现时,机器能自动停止运转。
基因必须完成类似对未来做出预测那样的任务。而在一个复杂的世界中,对未来做出预测是有风险的。生存机器的每一个决定都是赌博行为,基因有责任事先为大脑编好程序,以便大脑做出的决定多半能取得积极成果。在进化的赌场中,筹码是生存。我们相信如果那些动物的基因建造了灵敏的大脑,使它们在赌注中往往成为赢家,那么,作为直接的后果,这些动物生存下去的可能性就更大,这些基因从而得到遗传。
当然,在一些难以预见的环境中,基因如何预测未来是个难题,解决这个难题的一个办法是预先赋予生存机器以学习能力。这种学习能力一方面通过尝试-反馈机制的学习战略形成(不论是否形成巴普洛斯效应),这一机制在AI人工智能当中已经广泛应用,比如在决策程序中加入小小的随机数,把以后的种种结果记录下来,之后在稍微增加有利的因素权重,降低有害的因素权重,来动态调整。
预测未来的另一个有趣的方法是模拟。你在大脑里会建立一个模型,大脑可以利用这个模型来预测可能发生的事。那些能够模拟未来事物的生存机器,比只会在实际的试验和误差的基础上积累经验的生存机器要高明很多。实际的试验既费时又费力,明显的误差常常带来致命的后果,模拟既安全又迅速。而现在我们利用电脑来进行模拟是在模拟能力上的又一大进步。
模拟能力的演化似乎最终导致了主观意识的产生。意识的产生也许是由于大脑对世界事物的模拟已达到如此完美无缺的程度,以致于把它自己的模拟也包括在内。
当然,不管意识引起了哪些哲学问题,意识的出现使得生存机器最终从主宰它们的主人即基因那里解放出来,变成有执行能力的决策者。大脑不仅负责管理生存机器的日常事务,它也获得了预测未来并做出相应安排的能力,它甚至有能力拒不服从基因的命令。
原本意义上,动物的行为不管是利他还是自私的,都在基因控制之下。这种控制尽管是间接的,但仍然是十分强有力的。基因通过支配生存机器和它们的神经系统的建造方式对行为施加其根本影响。基因是主要的策略制定者,大脑则是执行者。但随着大脑日趋高度发达,它实际上接管了越来越多的决策机能,并在决策过程中运用诸如学习和模拟的技巧。
复制算法+有限的资源=博弈关系的产生
复制因子的产生于偶然的碰撞
前面所提到了基因本质上是一套复制算法,为什么会是复制算法呢?其实说起来也很简单,只要自然演化中出现一次偶然的可能复制自我的复制因子,则世界中的该因子数字就能呈现指数级的增长,导致相对于非复制因子的优势大幅提高。
基因、复制因子、生命的产生本质是一种熵减的效应,从无序走向有序的逆流过程。
但资源总是有限的
容易理解的是复制因子实现复制的过程需要与外界其他物质(资源)进行有效的结合(复制过程当然不可能无中生有,平空诞生)。而这一利用外界资源的过程显然会随着复制因子本身的数量指数级膨胀而遇到瓶颈。
博弈关系的诞生
正是这一来自于复制因子与有限的资源之间的矛盾,以及不同的复制因子之间对于资源的矛盾,就产生了各种各样千奇百怪的博弈关系:竞争、利用、合作、欺骗等。
博弈关系非常多且复杂,包括同一物种内部的,比如配偶,子女,为争夺生活必需资源(食物、配偶)的直接竞争者,也包括不同物种之间的,比如作为食物、相互利用、共生等关系。不过具体到什么时候采用什么样的策略,与和自己状态及环境的判断相关,就非常复杂了,比如象形海豹为了争夺妻妾的雄性搏斗,是在当下进行,还是继续养精蓄锐,长得更大更强壮再进行。
演化稳定策略Evolutionarily Stable Strategy (ESS)
ESS是从博弈论为基础发展出来的理论用来解释在自然演化过程当中不同的策略选择最终会演化到一个非常稳定的状态,非常深刻。这个状态会非常稳定,以至于如果成员的策略偏离于这个状态,都会被自然演进过程所惩罚。
书中举了个例子,比如在一个群体当中的两种争夺资源的方式,一种叫鸽派,采用对视吓唬对方的方式,如果一方退让了则获得食物记50分,而由于对视会消耗时间成本,有-10的能力消耗,因此总计获得40分,而失败的一方同样消耗的精力和时间,只能获得-10分。因此,如果一个群体全部采用鸽派方式,由于胜负是零和游戏,一方赢必然以另一方输作为代价,因此平均而言,一方获得的仅为15分。
假设由于变异产生了另一种竞争方式叫做鹰派,其采用直接打架的方式来竞争,由于最初群体当中全部是鸽派,因此变异的鹰派一方很容易赢得竞争,直接计入50分。而随着时间的推移,鹰派的基因由于其巨大的成功,将在群体当中得到很大的发展。
而当鹰派基因在群体中比例越来越高以后,两只鹰派相遇的概率就大幅提高了,假设在激烈的对抗当中输了的一方会严重受伤,其收益为-100。则可见,两只鹰派的平均得分仅为-25。鸽派虽然遇到鹰派的时候很容易就输掉了,但由于其不会参与竞争,因此不会受伤,其得分为0(也不需要浪费时间对视),这一得分是要高于两只鹰派相遇的结果的。
因此,可见当群体当中鹰派基因过多时,采用鸽派策略的基因反而相对会更为成功,以使得其在群体当中的占比提高。
由此可见,群体中的鹰派和鸽派的最终会向一个比例趋近,高于这个比例会导致鹰派过多,反而净收益降低,鸽派上升,而低于这个比例则相反。经过简单计算,群体当中鹰派鸽派的比例将在7:5的时候达到一个稳定态,高于和低于都会有很强的回归动力,这就是演化稳定策略ESS。
在群体达到这个稳定态后,经过计算平均的收益在6.25。
演化稳定策略体现出一些重要的特点:
演化稳定策略并不等同于最优化策略,但他却是最为稳定的。我们很容易知道,最优化策略应该是全鸽的局面,平均收益在15,远高于6.25。不过这一策略在自然演化中对于变异出的鹰派策略非常脆弱,无法形成稳定态。由此可见自然演化尽管会逼着鸽派基因、鹰派基因都努力向着最优化去努力,但全局而言却是以最稳定态为发展方向的。
当然,当频繁的变异出现的时候,稳定态ESS就需要不停的调整。当发现新大陆时,欧洲殖民者引入了很多动植物相当于一次性,快速引入了大量变异元素到了原有的生态当中。而科技作为创新的推动力,创新本身相当于给原有的社会组织引入了大量的变异元素,也会推动原有结构的稳态ESS需要不停的调整。因此,我们在分析格局的时候一定要特别注重稳态的形成以及变化的推动力可能产生的影响。
演化稳定策略ESS的核心不在于最优,而在于可以免疫阴谋论,最为稳定。比如在一些相处对策当中,针锋相对可能就是最为稳定的策略,具体可参见《策略选择的科学探讨-投资思考随笔(49)》,在随后的演化当中可能演化出来一些新的竞争策略,比如报复性策略,即对方鸽派就鸽派,对方鹰派就鹰派,这一策略很显然会成为最为强大的组成部分。
Comments