什么样的臭皮匠才能顶上诸葛亮?
之前我们聊过机器学习中的一个大类,叫做集成学习,用简单一点的话来描述这种方法就是“三个臭皮匠,顶个诸葛亮”。虽然Schapire大神证明了,臭皮匠们是可以顶上一个诸葛亮的,但是理想很丰满,现实很骨感,要怎么样的臭皮匠们集合在一起才能顶的上诸葛亮呢?
我们知道集成学习就是要把很多比较弱的分类器集合在一起,最终形成一个强分类器。但也并不是什么样的弱分类器集合在一起,都可以变成一个强分类器,就像不是所有的臭皮匠们凑在一起都能赶上诸葛亮。
咱们举个例子,让几个臭皮匠来预测明天到底刮不刮东风,然后把每个人的结论拿出来投个票,少数服从多数来告诉周瑜大都督明天要不要出战。
首先如果这几个臭皮匠们每个都特别的不靠谱,预测的准确率只有三分之一,那可想而知最终的结果肯定也是一塌糊涂。因为个体水平实在太差了,凑在一起也是烂泥糊不上墙。
那就至少要求每个臭皮匠要比瞎蒙号上一点点,那么把大家的智慧集合一下,确实可以得到一个更准确的结果。假设有三个臭皮匠,他们每个人的预测正确率是0.6,那么最终汇报给周瑜大都督的结果的正确率就是:比起他们每个人的预测准确率都要高上那么一点点的。
但这有个前提就是每一个臭皮匠都是独立判断的,彼此没有关系。比如老王根据蚂蚁,老赵根据温度,老刘根据风湿疼不疼,彼此不相关才能得到加起来更好的结果。而如果这三个臭皮匠彼此的预测是相关的,都是看的温度,那相当于他们没有提供多向性的信息,加起来的结果也就只有0.6了。
所以臭皮匠们(弱学习器)最好都彼此不一样,出来的结果才更好一些,才能从不同的角度提供不同信息。
那我们看现在是三个臭皮匠一起来出谋划策结果比每个人好了一点点,但还和诸葛亮有一些差距。如果是五个臭皮匠呢?用同样的方式计算一下:正确率又提升了一点。
可见如果多凑几个臭皮匠,那么大家一起决策出来的结果就更准确一点。
有数学证明如果是彼此独立的弱分类器,数量越多最终的集合分类器越准确。
那么想要媲美诸葛亮的臭皮匠们的特点就有了,首先个体不能太不靠谱,至少要比瞎猜准一点;其次他们最好有独立性,彼此不受什么影响;最后这种臭皮匠们一定要多,这样才能靠数量逼近诸葛亮。
事情想的是很美,但现实总是很骨感。对于预测同样一件事情,各个弱分类器之间是很难保证完全独立的,而且可以参考的因素就这么多,很多时候准确性和独立性这两点本身就是矛盾的。那难度就变成了要怎么有效的构造出这么多个又有一定准确性,彼此又不太一样的弱分类器了。那这个问题可以留到随机深林来说。
END
作者:锅哥不姓郭
《什么样的臭皮匠才能顶上诸葛亮?》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.bookhoes.com/4479.html