数据驱动开普勒“地心说”
这两年一直都在说一个概念叫“数据驱动”,这个大家应该很熟悉了。还有一个和他相对应的词,模型驱动,恐怕就没有那么多人熟悉了。其实这两种思想很早以前就在文明中出现了,比较有代表性的例子就是人们对于行星运动模型的探索。
对于地球是宇宙的中心还是太阳是宇宙的中心历史上人们争论了很久。如果从现在的角度来看,大家肯定是接受哥白尼的日心说嘛。但实际上无论是日新说还是地心说,都只是一个描述天体运动的一个模型而已,本质上宇宙既不是围绕地球转也不是围绕太阳转。我们接受日心说,是因为这个模型来描述行星的运转更加简洁。
托勒密的地心说实际上是用圆和地心这个简单模型,通过40几个大小圆嵌套,利用过去几百年人们对于天体的运行轨迹的数据,建立了一个十分准确的模型,这个模型在运行一千多年后,也才产生了10天的误差。其实哥白尼的日心说在刚刚提出时,准确率是不如托勒密的地心说模型的,原因是他也只用了圆作为基础模型并大小圆嵌套。而最终让日心说模型彻底超越地心说的,其实是人们认知的升级,科普了提出用椭圆这个相对更复杂的基础模型来建立天体运行模型。
这其中我们可以理解托勒密的地心说就是一种“数据驱动”方式,他用了相对简单的模型,再通过不断的叠加简单模型,通过调整模型的参数,去拟合过去的数据记录。而日心说算是一种“模型驱动”,他通过建立相对更复杂的模型来,来描述世界,从而得到更好的效果。
如果熟悉机器学习,哥白尼的“日心说”让人联想起传统的机器学习模型,像是SVM模型,设计精巧,数学证明严谨,就像是日心说中复杂而严谨的“椭圆轨迹”。而开普勒的“地心说”就让人联想到了现在大火的深度学习,在神经网络的模型中,每一个神经元都是非常简单的,就像开普勒用于描述天体运行的一个“圆形轨迹”。但当一个一个简单的小模型,不断叠加,并加入足够多的数据之后。这个模型也能够得到非常好的效果。
虽然看起来“日心说”的模型看起来要比40多个圆的“地心说”简洁很多,但其实日心说的基础模型椭圆是要比地心说用到的圆复杂的多。而更为重要的是,人类从圆到椭圆的认知升级用了1000多年。想找到一个更加精巧、高复杂度和准确的模型其实是一件更为复杂的事情,这看似优美但其实并不高效。
在开普勒的那个时代,因为数据收集处理技术有限,数据也不够多,“数据驱动”也并不比“模型驱动”更有效。而现在数据处理和收集技术已经很发达,而在这种技术下催生的“数据驱动”变的更加高效。而且开始能够解决“模型驱动”无法解决的问题,如战胜李世石。现在NLP领域的Bert,XLnet更是创造了一种“大力出奇迹”的打法,只要你数据够多,算力够强,就可以尝试设计能够叠加更深网络的方式,来提高效果。
这看起来“数据驱动”已经占了上风。那我们回看一下“地心说”和“日心说”之争,虽然开普勒可以通过40个小圆拟合出行星轨迹,但是用“地心说”的模型永远无法得到“万有引力”公式,永远无法得到对于事物本源更进一步的思考。所以从实用主义角度出发,“数据驱动”是最快获得成果的方式,而真正文明的跃迁靠的还是人们对于事物本源认知的升级,本质来看依旧要依靠“模型驱动”。
END
作者:锅哥不姓郭
《数据驱动开普勒“地心说”》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.bookhoes.com/5331.html