三个臭皮匠的故事:集成学习
在机器学习的应用中,有一种框架非常的好用,就是集成学习。简单的理解这种框架的思路呢,就是:三个臭皮匠顶个诸葛亮。
集成学习的算法很多,各种公式的细节也非常的多,但最开始其实没有必要上来就陷入到细节的汪洋大海之中,咱们可以先看一下为什么会有集成学习。
在算法领域里面有两个说法,叫做“强可学习”和“弱可学习”。这两个说法的概念如下:
强可学习:在概率近似正确学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的;
弱可学习:一个概念,如果存在多项式的学习算法能够学习它,学习的正确率仅比随机猜想略好,那么就称这个概念是弱可学习的。
听着这个很绕,简单一点说,就比如赤壁之战那天到底刮不刮东风这件事情。如果有个人很有把握的预测出来,这天到底刮东风还是刮西风,那么“借东风”这件事情就是“强可学习”的。
那如果刮不刮东风这件事,有个人预测,只比瞎蒙好那么一点。猜100次能对五十二,三次,那么就说,“借东风”这个事情是“弱可学习”的。
后来有个大神,名字叫Schapire,他证明强科学习和弱可学习是等价的,在概率近似学习框架下,一个概念是强科学习的充分必要条件是这个概念是弱可学习的。
这个意思就是说,如果你预测明天“刮东风”比蒙的准那么一点,那就等同于你可以“借”来东风了。
那这就是一个很厉害的事情了,能够“借”来东风的是强学习器,就是诸葛亮。这可是不世出的天才,你想找到这么一个人可太难了。但能猜个差不多的人可就太多了,村里的老王、老李、老刘都行,这些弱学习器虽然不是次次准,但猜个差不多是没问题的。
Schapire大神的意思就是,如果你能找来老王、老李、老刘这三个臭皮匠,就相当于找了个诸葛亮了。那这个难度可就降低太多了,刘备当年要是知道这个方法,还用蹉跎这么久?
那既然Schapire大神给咱指路了,那就衍生出了两个问题:第一,怎么找到三个臭皮匠,第二,咱们把三个臭皮匠的意见整合在一起。
那这就衍生出了两种方法,一种是bagging,一种是boosting。
所谓bagging,就可以理解为臭皮匠投票法。假如有很多很多个臭皮匠,而且他们观察事物的角度都不一样。比如预测明天是不是刮东风,老王通过节气判断,老李通过温度判断,老赵通过观察蚂蚁判断,老刘通过看老伴的风湿发作没有判断,等等等等。那么很多很多个臭皮匠,就会有很多独立不同的视角,然后让他们投票,那么得出的结论可能就比每个人的都靠谱。这就是集体的智慧。
另一种boosting,就可以理解为臭皮匠接力法。bagging中每个臭皮匠的判断是独立的,判断出了结果再投票。而boosting里面的臭皮匠是彼此依赖的。比如老王先做了个判断,然后老李知道老王往往预测总是偏乐观,就在他的基础上做些修正,然后老赵又知道老李预测会受到情绪的影响,就再在老李的基础上做一下修正,然后继续下去。每一个臭皮匠都是在前一个的基础上做出一点点的修正,最后把他们的预测加起来,就得到了最终的结果了。
集成学习的思想很厉害,他指出了一条可以通过集合比较普通的智慧,得到超高智慧决策结果的可能性。让我们可以通过集合一些不太聪明的臭皮匠,就可以比肩一个绝世英才的诸葛亮。
END
作者:锅哥不姓郭
《三个臭皮匠的故事:集成学习》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.bookhoes.com/3648.html