解读数据科学家“可复制”的成功之道!(2)
对监督型和无监督型模型有很好的理解,数据科学家需要知道每个业务目标,使用哪种机器学习模型,如何使用它们,按照何种顺序使用它们以实现业务目标。很多的培训课程通常都是使用单一模型来实现商业目标,例如创建电子邮件营销响应模型,选择逻辑回归或决策树或支持向量机来构建它。这就造成了一个盲点,即它将成为每个业务目标的一个机器学习模型,而这并不是必要的。 根据业务目标推荐使用哪些模型并构建建模目标的能力来自经验。所以对于潜在的数据科学家来说,开始研究它吧。 ·模型训练 在机器学习中,你遇到的每种机器学习模型都有许多“旋钮”和“开关”,供你在模型训练过程中调整或翻转。这些“旋钮”和“开关”被称为超参数。具有良好数学背景的数据科学家对于如何将这些“旋钮”和“开关”变成“最佳”模型有着很高的理解。事实上,如果他们有一个良好的背景,他们可能会提出自己的损失函数,并建立自己的随机梯度下降法,这是训练不同机器学习模型(主要是监督)的两个关键组成部分。 ·模型选择度量 大多数情况下,我们可以训练几个不同的模型(给定目标和超参数),然后我们需要了解模型选择指标是如何计算的以及他们喜欢哪种模型。 选择最佳模型不一定总是基于准确性,因为在现实生活中,预测错误的成本可能与错误预测的负面成本大不相同。例如,在一个流行病中,一个可以减少假阴性的测试比一个高度准确的测试更为重要。 4.运营研究 我们都在需要不断作出决定的环境中工作。能够部署数学模型来帮助做出更好的决定是运营研究的关键。运筹学的一些例子是什么?他们是优化、博弈论、预测、排队论、模拟、图论等等。当然,运筹学也包括统计/机器学习模型来帮助模拟商业环境,从而做出合理的决策。这是一个数学领域,需要大量的非统计学研究。 我相信数据科学家应该能够使用这些模型,以及数据支持的参数,以便做出“更好的”决策,帮助企业组织实现其业务目标。 结论 分析了这么多,我们发现,数据科学家应该精通数学和统计学,为他们建立数据科学事业打好基础。笔者的观点是,数据科学家最基本的技能是数学知识,能够将业务目标或挑战转化为数学模型,并将这些模型作为基础的一部分,以做出最佳决策。 还有一些人认为编程是一项基本技能,不否认,它很重要,因为我们现在正在使用计算机来处理我们拥有的大量数据。但想象一下,如果没有数学知识,要了解如何为环境建模,那么,编程技能对数据科学家又有多大用处呢?后续的文章中,我们将继续介绍有关数据和IT管理领域的知识。 (编辑:ASP站长网) |