这几个机器学习核心问题,不会数学也能搞定!(2)
当然,为了得到更多的点,我们总是可以收集更多的数据。但有时候,你会发现自己只是一个贫穷的本科生,没有别人拥有的经费、时间或资源。无论如何,有时收集更多的数据是不可行的。因此,与其这样做,我们可以忽略部分训练数据,并用被我们遗漏的点来“添加”点! 这也不是一个新概念——这是使用了验证集(我们在验证集中验证那些模型从训练集中找到的模式)。使用验证集来确定特定的过拟合区域是一种新方法。然而,人们没有这样做是有原因的。 “绿色”区域看起来很不错,但首先,它们很难找到,其次,这些区域的构建依赖于数据。简单来说,有些区域明显是“绿色”的,有些区域明显是“黄色”的,但是有些区域很难确定颜色,因为这些区域是围绕训练数据建立的。这个问题的解决方法依赖于与美国相同的基本原则。如果针对不同数据训练的两个模型得到了相同的“黄色”区域,那就会很奇怪。 因此,对于第一个模型中不确定的区域,如果基于不同数据的模型来重复这个着色过程,便可以根据第二个模型来决定它们的颜色! 如果这个模型发现了相同的区域,那么我们可以非常肯定它不是偶然发现的,所以它应该是“绿色“的。相反,如果第二个模型没有找到该区域,那么很可能是干扰,应该将其涂成“黄色”。 那么,要如何确定这些区域呢? 通过找集群! 你可能会问,什么是找集群? 来源:wikiepdia.org 找集群就是在数据中找到集群。如图所示,找集群就是在数据中找到三个集群。同一集群中的点看起来与模型相似。如果有多种方法可以转换这些点并在模型中绘制(例如,在神经网络的每一层中),那么根据定义,在所有图中处于相同集群中的点对模型来说是不可区分的。这很清晰——如果模型能够区分它们,那么它们在某个时候就会在不同的集群中。无论如何,如果定义了这些总是在同一个集群中的点的位置,那么现在就有了各自的区域了! 机器学习就是寻找能够分离点的算法(还有回归)。算法倾向于找到绿线,因为这将最小化分类错误。机器学习的挑战在于找到一种可以得到黑线的算法,因为这可能在新的点上更有效。正则化,也就是巧妙的数学,帮助我们得到更接近黑线的东西。
(编辑:ASP站长网) |