一般的算法是输入数据,输出结果。而机器学习算法则是输入数据和想要的结果,输出算法。
如果说工业革命解放了人类的体力劳动,那么AI革命就是解放了人类的脑力劳动。
本文来自于BEDROCK成员Jimmy,及其和团队讨论记录。
机器学习算法主要可以分为五种理论,各有其优缺点和适用范围,Master algorithm就是一种理想的可以把这五种算法都包括在内的终极算法:
Symbolists(符号学派)把知识表示成符号的集合关系,通过归纳总结、逆向演绎来获取新知识,主要依靠哲学、心理学、逻辑学的理论。然而这种基于历史的方法一直有一个很严重的问题,也就是罗素的火鸡:有一只火鸡科学家,有一天它意识到每天早上九点都有人带来早餐,它很聪明,知道不能把偶然现象当做一般规律,于是它观察了各种天气下、周一到周日,每天都有人带吃的,排除掉了天气、日期等等无关因素的影响,于是它宣布了这一定理。次日是万圣节,早上九点,早餐没有来,这只火鸡被主人捉走杀掉了。也就是说基于历史的结论随时可能被打破。另外,有很多概念是人类还没有发现或定义的,符号学派的局限性很大。
BR Research:
基于历史的判断尤其不能用在范式转换的时候,用旧模式的经验来看待新模式,做出的判断一定会大错特错。比如上海的疫情防控,之前的精准防控策略一直很成功。但是这次由于感染人数过多,无法追踪到所有的密接次密接,甚至是感染者都未必能全部发现,导致了这次的疫情逐渐失控。这就是从“流调能力大于密接人数”到“流调能力小于密接人数”的,由量变导致质变的范式转变。
火鸡问题的实质是哲学问题,也就是休谟问题,毕竟人类所有的知识、科学都来自于对过去的信息(没有人知道任何来自未来的信息),所以科学理论就是可以证伪但是现在还没有证伪的理论,科学家们最主要的工作就是根据新的事实、实验修正过去的理论。对个人来说,不断修正自己的观念是很困难的,需要耗费很多能量,但是这应该是每个投资者必须做到的。从这个角度来说,无法证伪的理论(各种宗教)能够收获那么多信徒也是有道理的。
Connectionists (联结主义学派)通过学习大脑的工作方式,提出了神经网络的方法,就像大脑是由一个个互相连接的神经元一样,重点不是每个节点代表的实际意义,而是各个节点之间连接的强度。通过梯度下降的方法,改变、优化各个节点的连接强度,最终完成学习的过程。梯度下降常常叫做爬山算法,就是每次移动一小步,并且朝着最高的方向移动,问题是会困在局部的最优解,也就是一个小山头上,因为它周围一小步之内没有更高的地方了。神经网络的自由度非常高,因为参数很多,但是它最大的问题是难以被人类理解。
计算机科学中,P问题是可以快速解决的问题,比如对一个有限长度的数列按照大小进行排序;NP问题是很难解决,但是可以快速验证某一个答案是否正确的问题,比如著名的旅行商问题:一个人要从A城市出发,经过N个城市后到达B,有没有一条路径的长度小于L? 虽然NP问题很难解决,但是人脑可以模糊地解决NP问题,这是神经网络的一个优势。
BR Research:
神经网络是现在最火热的理论,而符号学派的热度主要在上个世纪。由于神经网络的参数非常多,它对算力的要求很高,只有21世纪的算力飞速进步才使得它的发展应用成为可能。目前来看,生物脑已经是自然选择算法进化出来的最厉害的学习思考工具,因此这个方向的上限至少就是人脑的水平,还有很大的进步空间。而现在计算机神经网络的规模还远远不能和人脑相比,毕竟计算机的功耗比人脑要大得多,所以对算力更强、能耗更低等方面继续进步的要求还是存在的。
神经网络最大的问题还是难以被人理解,因此人为地对它进行针对性的改进是基本不可能的。如果用神经网络做量化,当结果与实际不符时,排查问题、修正模型都会很困难。当然现在有很多计算机学家致力于让神经网络具有可解释性,如果能与符号学派结合的话应该有希望解决这个问题。
Evolutionaries (进化学派)借鉴了自然进化的算法,首先随机或手动生成很多样本,然后通过适应度函数给每个样本打分,分数高的样本留下来,相互之间进行基因交叉,基因也会随机突变,以此生成下一代,这样重复进行。因为突变是随机的,没有方向的,所以可以解决局部最优解的问题,但是要花很长时间等待一个有益突变,所以进化算法常常是快速进化——稳定在局部最优解一段时间——快速进化交替进行。在机器学习中,交叉的作用远远小于突变,交叉的作用主要体现在使个体的表现往平均值靠拢,这在没有明确的进化目标时很重要,比如生物界的自然选择,但是在机器学习这种目标明确的领域就用处不大。
BR Research:
效率高和能力强是两个互相对立的特征。梯度下降算法的效率很高,每次都往最高的方向移动一小步,但是容易被困在局部最优解;随机突变的效率低了很多,毕竟突变正好是最高的方向的概率非常小,但是它的自由度也更大,因为它会尝试各种突破常理的方法。就像是把蜜蜂和苍蝇放在开口的玻璃瓶里,瓶底朝向光源,蜜蜂只朝着光源飞,就永远也飞不出去;苍蝇随便乱撞,反而更容易逃离。
Bayesians (贝叶斯学派)以概率论为基础,把机器学习看作是使用数据推断各个假说成立概率的过程。比如Laplace的rule of succession:当观察到太阳升起n次时,“太阳每天都会升起”这一理论成立的概率就是(n+1)/(n+2)。N越大,这个概率就越接近于100%。一般来说,贝叶斯定理假设各个事件的发生是相对独立的,因为在现实中地理把它们隔绝了开来。然而,事件之间因果关系的传递性可能比概率论复杂得多,比如:A:如果洒水器打开了,草坪会湿;B:如果草坪湿了,说明下雨了。如果A的概率是80%,B的概率是60%,那么根据概率论,“如果洒水器打开了,说明下雨了”的概率就是48%,而实际上这两件事的关联程度远没有这么高。另外,概率论可能还会导致重复计数,比如“发现了外星人”这个新闻被很多媒体转载,但是它发生的概率并没有变高。
BR Research:
贝叶斯的核心是不断利用新的信息来更新理论正确的概率,在投资中就表现为对公司的跟踪,如果公司业绩能够一直符合预期甚至是超预期,那么对它的基本面的信心就会越强。
如果选错了观察对象,就无法准确地更新概率。比如次贷危机前,大部分机构的追踪对象都是房价,因为大家认为房地产是一个充分交易的市场,房价可以真实地反映供需关系,只要房价不下跌,抵押贷款就不会有风险,而房价一直上涨的事实则使他们的信念越来越坚定。但是大空头Michael Burry追踪了房贷的违约率,发现违约率一直在上升,因而对市场做出了相反的判断,最终证明他才是正确的。
Analogizers (类推学派)通过数据点之间的相似性进行学习。代表性的最近邻算法是最简单、最快速的学习算法,常常用作分类器。如果把所有数据做线性拟合,结果会很不准确;而在局部区域内,使用线性拟合是非常有效的,而且不同区域的线性拟合可以组合成一个整体的非线性拟合。然而,最近邻方法容易被无关信息干扰。如果给某些信息更低的权重,就代表需要人为定义哪些是无关信息;如果每个特征都有相同的权重,当无关信息过多时,最近邻法跟瞎猜差不多。而且维度很多时,相似性的定义就很困难:在三维,假设橙子果肉的半径占90%,那么果肉的占比就是0.9^3=72.9%;在100维空间中,果肉的占比就是0.9^100=十万分之二。为了解决多维问题,Support Vector Mechine (支持向量机)算法会给每个特征赋予一个权重,相当于是只选择几个最重要的特征做最近邻算法。
无监督学习:k-means算法,把最近邻的样本划为一个类,并自动打标签,但是各个类别之间的差别应该比较明显,就像是二维平面上一堆堆的点互相之间离得很远,否则就会混淆到一块。强化学习的过程就像是快速进化,不断尝试、评估、寻找更佳的数据划分方式。
The master algorithm: 由三部分组成,优化(Optimization),用来改进程序,寻找最优解;评估(Evaluation),计算现在的结果的好坏;和表达(Representation),也就是描述产出的方式。斯坦福的一个研究小组已经用新陈代谢网络构建了细胞的模型,而不是用基因和蛋白质。虽然离构建终极算法还很远,但是路径已经很清晰了,并且科学家们已经踏上了旅途。
历史经验对投资的作用
人类获取知识有两种途径:从事实出发的归纳法,比如太阳东升西落,天鹅都是白色的;从假设出发的推理演绎法,比如爱因斯坦假设光速不变,推导出了相对论。当然这两种方法得到的知识都还需要通过可重复的实验验证。这两种方法也常常一起使用,比如从大量事实中归纳总结出几条数学公理,然后通过推理法搭建欧氏几何体系。
理论上来说,如果收集到的信息、事实足够多的话,可以通过归纳法得到所有的知识,也就是Master Algorithm所用的方法。然而,这种方法并不适用于人类,因为人类收集到的信息无法传输、共享,只能分布式地存储在每个人的大脑里;况且人类也没有这种从海量数据中提取知识的能力。而电脑通过各种传感器、测量仪器得到的数据却能很方便的放到一个数据库里面。所以,对于目前的我们来说,还是要依靠传统的方法来获取知识。
既然过去的经验无法预测没发生过的事,也就是火鸡问题,那么从过去的历史中总结出来的知识在未来有多大程度的正确性呢?
Laplace的rule of succession提供了一些思路。如果某件事或某个规律发生了很多很多次,那它的正确性就更加能够保证。如果火鸡科学家可以观察两年,三年,那它的理论也能够得到修正。越是底层的规律发生的次数就越多,比如生物相关的规律;越是宏观的规律发生的次数就越少,比如经济危机。从这个角度来说,底层规律对于投资的重要性就不言而喻了。
BR Research:
符号学派和贝叶斯的研究方式都和人的认知过程很像,也就是从历史经验中总结规律,并且不断用新的事实验证这些规律。但是在实际应用中,很重要的一点就是要弄清楚是火鸡问题还是太阳照常升起的问题。虽然延长历史数据的时间范围可以一定程度上避免火鸡问题,但是刚刚诞生的新事物往往没有太久的历史数据,比如智能机刚诞生的时候;而且也很难确定选取的时间范围是否足够长,选取的数据范围是否足够广。因此,通过假设、推理、验证的方法来应对范式转换时期还是很有必要的。
Comments