策略选择的科学探讨-投资思考随笔

BedRock
2021年5月18日
讀畢需時 10 分鐘

已更新：2024年4月8日

对社会协作的数学思考

有机会阅读了1984年就发表的但似乎并非广为人知的《Evolution of Cooperation》，惊呼神书，很多备受争议的话题，比如人性本善还是性本恶啊？在人类社会，国际政治当中应该采用何种策略来为人处世？我们到底是听从父母建议，国家引导还是宗教教义来指引我们用何种方式来对待世界？这些非常复杂和非常具有哲理性，而且似乎根本扯不清楚的问题在这本书中竟然用一种更加科学性、工程化、逻辑性的方式做出了表达，非常具有启发性。

如何在一个没有中央政权的环境下产生合作关系？因为，通常情况下，帮助别人意味着一种牺牲，而由于没有中央政权，你并不能保证别人一定会给予回报。

囚徒困境当中往往选择的是背叛

在一个标准的囚徒困境当中，最好的结局明明是互相合作，但由于没法保证对方的选择，最后从自我利益最大化的角度出发双方各自最好的选择竟然是对双方整体最差的结果，既双发都会选择背叛。事实上，只要是在有限次数博弈过程当中，双方都会一直选择背叛。

那么为何合作会产生？

而当条件稍稍改变，也是非常普遍的局面下，即参与者的相互博弈可能是未知次数的，或者说对未来未知的局面下，合作就可能会产生。

也就是说，如果对于决策者而言，今天做的决策不仅仅影响今天的结果，也会对未来产生的决策产生影响，那么对未来决策的考虑就会反过来影响今天的决策。

当然，未来相比今天的重要性要更弱一些，一方面因为人们对于未来的期望回报会随着时间逐渐下降，另一方面，毕竟未来参与者依然有不再见面的几率。因此对于未来决策的当期价值会随着时间逐渐下降，我们可以用一个参数w来代表折现率。

有趣的策略锦标赛

Robert Axelrod做了一个模拟的策略锦标赛，让各种参与者制定游戏策略，然后测算哪种策略能够胜出。出人意料的是，结果一种非常简单的策略笑到的最后，就是针锋相对（TIT FOR TAT）的策略。针锋相对的策略是一开始采取合作的选择，然后在之后的选择当中采取与对方针锋相对的策略，也就是以眼还眼以牙还牙的策略。

很神奇的是，在各种策略方案当中，第一轮对人友善的，采取合作态度的策略要显著优于第一轮背叛的策略。是不是可以说人之初，性本善？因为，我们可以合理推断在漫长的进化过程当中，采用更优的生存几率的策略更有机会成为最终的基因，或者说默认性格的一部分。

但是否说我们play nice就可以了呢？

有一种非常有意思的，也是看上去更接近于人性的策略是基于“预期结果最大化”原则的，叫做DOWNING，这个策略基于更加主动的预测其他玩家的策略而做出不一样的策略选择，比如如果其他玩家的策略比较软弱，或者没有反制措施，则DOWNING策略会尽可能的选择背叛来占便宜，而如果其他玩家的策略有反制措施，则DOWNING策略就会选择合作。由于一开始DOWNING策略不知道别的策略是否有反制措施，其必然会选择常识性的背叛（也就是前面说的首先选择背叛）来测验，而这一过程会被有反制措施的策略狠狠的惩罚，导致DOWNING策略的评分并不会特别高。

但正因为DOWNING这种策略的存在，也使得纯粹一位，单纯天真的play nice策略会被DOWNING策略严重的利用，而吃尽苦头。这也是为什么过于单纯天真的play nice的好人在遇到坏人的时候很惨的原因。

在现代社会中，由于有中央政府或者社会监督机构的存在，他们帮助审查坏人，骗子，使得那些一位单纯天真的好人们也能过得不错，由于他们相互之间是更倾向于合作不背叛的，整个社会的价值当然是非常大的。但在缺乏中央管控，或者社会监督能力薄弱，如一些无政府、政府缺位的地区、战乱地区、缺乏国际约束力的国际社会等，一味的play nice很容易被DOWNING策略的人所利用。

记仇与宽恕

在整个策略比赛中得分最低的一种策略是叫做FRIEDMAN的，其采用完全的不原谅永远报复的策略，也就是说只要一旦被人欺骗或背叛过，就永远记仇，不断报复，这一看上去再也不会吃亏的策略反而是得分最低的。

其实蛮有趣，因为担心被欺骗或背叛，而采用的看上去不会吃亏的策略，反而放弃了合作带来的双赢机会的好处，在长期的生命周期中是个最差的策略。

相比起来针锋相对策略是一种短记忆模式的策略，即别人在之前背叛了你，你就反制，但如果别人选择合作，你并不会对之前的背叛记仇，而会忘记之前的不愉快，选择合作。这种既有效回击，又健忘不记仇能够马上重新积极合作的模式是比永远报复策略更加宽容的方式。

当然，相对于针锋相对这么简单的策略，还有一些更加油滑的策略或处世之道，比如一种叫做JOSS的策略。他在大多数时候表现良好，但当对方选择合作的时候有10%的概率选择背叛，来尝试隔三差五的占一点小便宜。这一策略的问题是在很多时候JOSS确实能占一点小便宜，但他在遇到针锋相对策略的时候，会因为主动选择的背叛而导致报复，从而可能进入冤冤相报的负循环当中无法自拔。

不过这种即时反制策略，不论是JOSS还是针锋相对策略，都容易在遇到一旦因为各种原因，甚至是误解或错误的进入反馈链路后，双方均采取报复策略后进入冤冤相报何时了的循环无法自拔的局面。

事实上有一些更加宽恕的策略也是冲着避免产生循环报复局面而产生的，比如TIT FOR TOW TATS，即只有当对方连续背叛两次的时候才采取反制措施。这似乎和我们常常想象的不一样，这一策略看上去短期吃了点亏（让对方连续欺骗两次），但更加宽恕的策略在长期策略中却更为受益。另一个与DOWNING策略略微不同的策略，相比于DOWNING对他人更为悲观，和主动选择背叛不同，这个修改的策略对他人的反应更为乐观，更主动选择合作。在第一轮的锦标赛结果中，由于避免了“回音”效应，摆脱了冤冤相报的循环，这些更加宽恕的结果是要好于针锋相对策略的。

这些策略的结果似乎正好印证了“贪小便宜吃大亏”的名言。

第二轮策略锦标赛

可以很明显的看到，一个策略的成功与否，或者说成功程度如何除了自身特点以外，很大程度取决于他所处的环境和其他策略的选择。

而在生物和社会漫长的进化过程当中，显然不同生物，不同人群，不同策略师的策略也会不断进化以更加适应，而最差的结果将被淘汰，所以整体的策略环境也将不断变化。

在我们的策略锦标赛的游戏第二轮中，因为所有参与者都能够看到第一轮的结果了，哪些策略好哪些策略不行应该被淘汰已经被公开且充分认知了，理论上来讲第二轮策略会更加复杂也应该更为有效（或者说总收益更高）。比如在第一轮中得到的一些结论，比如要与人为善，不能首先背叛，再比如更加的宽容，这些策略都能够在总体交往当中获得更高的分数。这是否也意味着在不断进化演进当中，社会总体是向着总收益更大的方向来发展的？

不过令人吃惊的是，第二轮的策略比赛依然没有比简单的针锋相对策略更优的策略胜出。包括在第一轮中表现良好的更加宽恕的策略。这些策略在第二轮中表现不佳的主要原因在于他们的策略很容易被另一些策略所针对，比如每次刻意背叛一次后立即改为合作，而TIT FOR TOW TATS就会被占尽便宜。比如一个叫TESTER的策略就是专门占软弱策略的便宜，但如果遇到对方强势就道歉并回归合作的保守策略。而另一种叫TRANQUILIZER的策略专门会测试对方策略对于偶尔的背叛的宽恕程度也期尽可能的占到便宜。尽管，这些策略本身的排名未必很高，但却让那些“好人”策略吃尽苦头。

如果没有办法甄别和清除掉这些狡猾的，占便宜的人，一个社会中的老好人会被占尽便宜。不过这些占便宜的策略自身并没有特别成功，因为他们一旦遇到没有那么友善的策略会在上面损失更多的分数，还不如保守的合作的分数来得多。

最后发现，尽管策略师们绞尽脑汁，也有第一轮的成功经验可以学习，最终还是针锋相对策略笑到了最后。他的思想是如此的简单：首先与人为善，不主动背叛，但如果遇到则强硬反击，但同时保持宽恕，只要对方反悔就尽释前嫌。

策略的进化与“适者生存”

随着锦标赛一轮一轮的玩下去，明显不太行的策略会被参与者所淘汰，而成功的策略会被越来越多的选择，最终会集中在几个最为成功的策略上。

这一动态的策略选择就和生物的自然选择过程非常类似了。仅仅需要生物对于多接触的对方能够记忆一些特征点，比如是否有利或有害，事实上科学家们已经证明即使是细菌这样的单细胞生物也对外界环节有反馈和记忆机制的。

因此，学习、模仿、选择的过程会随着参与游戏的轮次和时间的推移逐渐在成功的策略上集中，而不成功的策略被淘汰，这在锦标赛、生物发展、社会演进都是类似的过程。这一过程就是“适者生存”。

占便宜型策略的最终消亡

在多轮次策略锦标赛演进过程中有一些特别有意思的策略的发展历程，比如图中8的HARRINGTON，他是一种基于占便宜的策略思维，这一策略在初期非常成功，原因在于初期有很多不太成功的策略，或者过于友好的策略使得其能够占尽便宜，而在多次交道或者代际后，这些策略逐渐消亡，HARRINGTON在于更成功的策略以及同样的自我策略时成功率大幅下降最终走向消亡。

有点像在一个熟人社区当中，最终耍点小聪明能占到便宜，但当大家逐渐提高认知（相当于针对性的友好策略的消失），这种耍小聪明的策略在更长时间的维度下效果会很差。

针锋相对策略为何Robust？

经过很多轮次测试可以发现针锋相对策略在不同的环境下表现都是非常的强韧，这其中很重要的原因在于别的策略会如何对待针锋相对策略的使用者。针锋相对有一些特征：

1，针锋相对策略是常见的；

2，针锋相对策略是容易被识别的；

3，一旦被识别，针锋相对不能被背叛（必然反击）的特质容易被尊重；

因此，针锋相对策略能够因为其透明性而获益。而在另一方面，针锋相对策略也放弃了去占别的策略便宜的机会，这些占便宜行为尽管偶尔会有收获，但在更广泛的策略对手和更长时间维度下是得不偿失的。

总结一下，针锋相对策略的成功来自于其：友好（不首先背叛），遭遇背叛后的必然反击，宽恕（当对手后悔并回到合作后不记仇），以及透明。

策略群体的变异与演进

我们可以试想当在一定的环境下最为成功的策略群体（很有可能最终归一为一种策略），遭遇到一种变异的策略，这一策略是否能够获得更高的分数，从而使得整体群体的变化。或者我们说这个策略群体是否坚韧是其是否能够抵挡住外部策略的入侵或自身的变异策略的冲击。这与生物进化的逻辑其实也是样的。

比如，我们可以想象一个全部一直友善的策略（一直选择合作），在遭到占便宜，或背叛型的策略入侵时，会严重缺乏坚韧度，很容易被占太多便宜。就如同在一群羊中，放入一只狼。

只有那些有韧性的策略群体才在更长时间维度下能够足够持久。

针锋相对策略的韧性是很容易在数学上得到证明的，因为其对且仅对上一步对手的反应做出反馈，因此只要对未来的权重w足够大，对手就不得不对他本次的选择做出考虑。

当w足够小（比如小于1/2）的时候说明未来不那么重要，双方的选择不需要那么顾忌未来，那么这种情况下所有的选择都会是自利和背叛，比如在一些明确不会再见面的场合，或者世界末日，是没有必要为未来做打算的，真正意义的活在当下是最重要的。

而当一个参与者被对方视为不会长期存在，或者已经没有能力反制了（也就是说除了策略代表的意愿，能力也同样重要，而其他参与者如何看待也同样重要），针锋相对策略也就不够稳定了。历史上，Pompey的盟友放弃同盟就是他们视Pompey的前景黯淡，因此这些盟友就从合作关系变成了敌对关系。再比如，当一家制造公司开始进入破产阶段，他的客户、供应商、银行都会从合作关系转为敌对关系（因为没必要遵守契约了），客户会拒绝付款，供应商会拒绝交付，银行会拒绝发放贷款。

产生合作的基础

基于前面的讨论，我们很容易能够明白，产生长期可持续合作的基础一定要：

1，建立在w足够的大，这样对于未来的关注要有足够的现时影响力，且相互关系必须有长期的时间作为基础。

2，合作的基础一定是对等的基础上的，不论是合作还是反制都是对等的。而合作的建立并不需要参与方是理性的，甚至并不需要他们知道为什么和怎样合作，也不需要双方建立信息上的联系，因为他们的行动本身是更有效的语言。这一建立也不需要信任作为基础，只要措施是对等的就可以，以使得背叛是无效的。合作的建立也不需要参与方是利他的，完全的利己也可以产生合作。而且合作的产生也不需要一个中央权威，完全可以自发的产生。

合作产生的条件仅仅在于（1）参与方能够识别其他参与方以及他们之前的行为，而这一要求在生物界中包括细菌这样的单细胞生物都是可以达到的。（2）未来的相互关系要足够的长使得现在的背叛是无利可图的。

针锋相对策略的缺点

经过了漫长的策略演进与不断的挑战，针锋相对策略或者说对等策略已经显示了其优越性以及韧性，但他也不是完全没有弱点的：

1，由于其及时反制的机制，在遇到另一个同样的反制机制的策略时，可能会产生回音效应，导致冤冤相报何时了的无休无止的局面（这时候如果有中央权威来打破循环是个考虑项，或者当群体中“好人”比例足够高时也能一定程度缓解这一现象的发生）；

2，而对于另外一些策略，比如完全随机游走或完全无反馈机制的策略（不过在漫长的进化和策略演进过程中，这些策略往往不成功而边缘化，因此遭遇到他们本来就是小概率事件），针锋相对策略又会显得过于慷慨了，在不该合作的时候合作。不过总的来说，在广泛的策略交往当中，以及在长时间维度上，针锋相对策略的表现已经足够好了，毕竟我们的为人处世本身就不可能指望事事都占尽便宜，那么这样一定是赚小便宜吃大亏的。

最后，我们再总结一下针锋相对策略的成功基础以帮助我们以后更好的做出决策：友好（不首先背叛），遭遇背叛后的必然反击，宽恕（当对手后悔并回到合作后不记仇），以及透明。

BR Partners

策略选择的科学探讨-投资思考随笔

最新文章

コメント