设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 站长资讯 > 动态 > 正文

快上车!机器学习新手十大算法之旅启程(2)

发布时间:2018-05-07 02:33 所属栏目:15 来源:李佳惠
导读:LVQ的表示是codebook vector的集合。这些在开始时是随机选择的,并且适合于在学习算法的多次迭代中最佳地总结训练数据集。在学习之后,codebook vector可以用来做如KNN一样的预测。通过计算每个codebook vector和新

  LVQ的表示是codebook vector的集合。这些在开始时是随机选择的,并且适合于在学习算法的多次迭代中最佳地总结训练数据集。在学习之后,codebook vector可以用来做如KNN一样的预测。通过计算每个codebook vector和新数据实例之间的距离来找到最相似的邻居(最佳匹配码本向量)。然后将最佳匹配单元的类别值或(在回归情况下的实际值)作为预测返回。如果你重新调整数据以使其具有相同的范围(如0和1之间),则可以获得最佳结果。

  如果你发现KNN在你的数据集上给出了很好的结果,请尝试使用LVQ来减少存储整个训练数据集的内存要求。

  8 - 支持向量机

  支持向量机也许是最受欢迎和讨论的机器学习算法之一。

  超平面是分割输入变量空间的线。在SVM中,选择一个超平面,以便通过它们的类(类0或类1)将输入变量空间中的点最好地分开。在二维中,可以将其视为一条线,让我们假设所有的输入点都可以被这条线完全分开。 SVM学习算法找到导致由超平面对类进行最佳分离的系数。

  机器学习新手十大算法之旅!

  超平面和最近的数据点之间的距离被称为边界。可以分离两个类的最好或最优超平面是具有最大边界的直线。只有这些点与定义超平面和分类器的构造有关。这些点被称为支持向量,他们支持或定义超平面。在实践中,使用优化算法来找到最大化边界的系数的值。

  支持向量机可能是最强大的现成分类器之一,值得在你的数据集上尝试。

  9 - Bagging 和随机森林

  随机森林是最流行和最强大的机器学习算法之一。它是一种称为Bootstrap Aggregation或Bagging的集成机器学习算法。

  Bootstrap 是从数据样本中估算数量的一种强大的统计方法。你需要大量的数据样本、计算平均值,然后平均所有的平均值,以便更好地估计真实的平均值。

  在Bagging 中,使用相同的方法,而是用于估计整个统计模型,最常见的是决策树。你的训练数据的多个样本被采取,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都会进行预测,并对预测进行平均,以更好地估计真实的产出值。

  机器学习新手十大算法之旅!

  随机森林是对这种方法的一种调整,在这种方法中创建决策树,而不是选择最佳分割点,通过引入随机性来进行次优分割。

  因此,为每一个数据样本创建的模型比它们本来的样子更不一样,但是它们以其独特和不同的方式仍然是准确的。结合他们的预测可以更好地估计真实的潜在产出价值。

  如果用高方差的算法(如决策树)获得较好的结果,那么通常可以通过bagging算法来获得更好的结果。

  10 - 增强和AdaBoost

  Boosting是一种集成技术,试图从一些弱分类器中创建一个强分类器。这是通过从训练数据构建模型,然后创建第二个模型来尝试纠正第一个模型的错误。添加模型,直到完美预测训练集或添加最大数量的模型。

  AdaBoost是为二进制分类开发的第一个真正成功的增强算法。这是理解提升的最佳起点。现代的助推方法建立在AdaBoost上,最显著的是随机梯度提升机。

  机器学习新手十大算法之旅!

  AdaBoost与短决策树一起使用。在创建第一棵树之后,使用每个训练实例上的树的性能来衡量所创建的下一棵树应该关注每个训练实例的注意力。难以预测的训练数据被赋予更多的权重,而易于预测的实例被赋予更少的权重。依次创建模型,每个模型更新影响由序列中下一棵树执行的学习的训练实例的权重。在建立所有树之后,对新数据进行预测,并且通过训练数据的精确度对每棵树的性能进行加权。

  因为如此多的注意力放在了纠正算法的错误上,所以清除掉异常值的数据非常重要。

  初学者在面对各种各样的机器学习算法时所提出的一个典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括:(1)数据的大小、质量和性质;(2)可用的计算时间; (3)任务的紧迫性; (4)你想要如何处理数据。

  即使是一位经验丰富的数据科学家,在尝试不同的算法之前,也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法,但这些算法是最受欢迎的算法。如果你是机器学习的新手,这将是一个很好的学习起点。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读