设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

统计学和机器学习到底有什么区别?

发布时间:2019-04-23 13:22 所属栏目:19 来源:大数据文摘
导读:大数据文摘出品 来源:medium 编译:周家乐、狗小白、蒋宝尚 统计学和机器学习之间的界定一直很模糊。 无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。 而机器学习支撑的人工智能也被称为统计学的外延 例如,诺奖得主托马斯萨金特曾经

统计学和机器学习到底有什么区别?

大数据文摘出品

来源:medium

编译:周家乐、狗小白、蒋宝尚

统计学和机器学习之间的界定一直很模糊。

无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。

而机器学习支撑的人工智能也被称为“统计学的外延”

例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。

萨金特在世界科技创新论坛上表示,人工智能其实就是统计学

当然也有一些不同的声音。但是这一观点的正反双方在争吵中充斥着一堆看似高深实则含糊的论述,着实让人摸不着头脑。

一位名叫Matthew Stewart的哈佛大学博士生从统计与机器学习的不同;统计模型与机器学习的不同,这两个角度论证了机器学习和统计学并不是互为代名词。

机器学习和统计的主要区别在于它们的目的

与大部分人所想的正相反,机器学习其实已经存在几十年了。当初只是因为那时的计算能力无法满足它对大量计算的需求,而渐渐被人遗弃。然而,近年来,由于信息爆炸所带来的数据和算力优势,机器学习正快速复苏。

言归正传,如果说机器学习和统计学是互为代名词,那为什么我们没有看到每所大学的统计学系都关门大吉而转投'机器学习'系呢?因为它们是不一样的!

我经常听到一些关于这个话题的含糊论述,最常见的是这样的说法:

"机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。

虽然技术上来说这是正确的,但这样的论述并没有给出特别清晰和令人满意的答案。机器学习和统计之间的一个主要区别确实是它们的目的。

然而,说机器学习是关于准确的预测,而统计模型是为推理而设计,几乎是毫无意义的说法,除非你真的精通这些概念。

首先,我们必须明白,统计和统计建模是不一样的。统计是对数据的数学研究。除非有数据,否则无法进行统计。统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。

因此,实际上我们需要从两方面来论述:第一,统计与机器学习有何不同;第二,统计模型与机器学习有何不同?

说的更直白些就是,有很多统计模型可以做出预测,但预测效果比较差强人意。

而机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。

从宏观角度来看,这是一个很好的答案。至少对大多数人来说已经足够好。然而,在有些情况下,这种说法容易让我们对机器学习和统计建模之间的差异产生误解。让我们看一下线性回归的例子。

统计模型与机器学习在线性回归上的差异

或许是因为统计建模和机器学习中使用方法的相似性,使人们认为它们是同一个东西。对这我可以理解,但事实上不是这样。

最明显的例子是线性回归,这可能是造成这种误解的主要原因。线性回归是一种统计方法,通过这种方法我们既可以训练一个线性回归器,又可以通过最小二乘法拟合一个统计回归模型。

可以看到,在这个案例中,前者做的事儿叫"训练"模型,它只用到了数据的一个子集,而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。在这个例子中,机器学习的最终目的是在测试集上获得最佳性能。

对于后者,我们则事先假设数据是一个具有高斯噪声的线性回归量,然后试图找到一条线,最大限度地减少了所有数据的均方误差。不需要训练或测试集,在许多情况下,特别是在研究中(如下面的传感器示例),建模的目的是描述数据与输出变量之间的关系, 而不是对未来数据进行预测。我们称此过程为统计推断,而不是预测。尽管我们可以使用此模型进行预测,这也可能是你所想的,但评估模型的方法不再是测试集,而是评估模型参数的显著性和健壮性。

机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言,你的价值只用你的表现来衡量。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。

下面我举一个自己的例子,来说明两者的区别。我是一名环境科学家。工作的主要内容是和传感器数据打交道。如果我试图证明传感器能够对某种刺激(如气体浓度)做出反应, 那么我将使用统计模型来确定信号响应是否具有统计显著性。我会尝试理解这种关系,并测试其可重复性,以便能够准确地描述传感器的响应,并根据这些数据做出推断。我还可能测试,响应是否是线性的?响应是否归因于气体浓度而不是传感器中的随机噪声?等等。

而同时,我也可以拿着从20个不同传感器得到的数据, 去尝试预测一个可由他们表征的传感器的响应。如果你对传感器了解不多,这可能会显得有些奇怪,但目前这确实是环境科学的一个重要研究领域。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读