敲黑板:区分数据科学、ML和AI没那么难
【资讯】有不少人不太明白数据科学、机器学习、AI之间的区别,今天,小编就做个简单的科普。
首先,我们看一下它在定义方面的不同: ·数据科学产生见解 ·机器学习产生预测 ·人工智能产生行动 但这并不是唯一的准确的标准,不是所有符合每个定义的东西都属于这个领域。这也不是一个确定职业的好标准,比如,很多人会表示写作是他们生活中的一部分,但他们却不是作家。 但是这个定义可以是区分这三种类型的工作的一个有用的方法,并且让你在别人面前谈到这些的时候显得不那么不专业。值得注意的是,这里采取的是描述主义而不是规定主义的方法。 数据科学产生洞察力 数据科学与其他两个领域是有区别的,因为它的目标是特别是关于人类的目标:获得洞察力和理解。杰夫·李克(Jeff Leek)对数据科学所能达到的见解类型有一个很好的定义,包括描述性(“普通客户有70%的更新机会”)、探索性(“不同的销售人员有不同的更新率”)、 “一个随机的实验表明分配给Alice的客户比分配给Bob的客户更有可能更新”。 再次,并非所有产生洞察力的资料都被认为是数据科学(数据科学的经典定义是它涉及统计学、软件工程和领域专业知识的组合)。但是我们可以用这个定义来区分ML和AI。主要的区别是,在数据科学中,循环中总是存在着一个人:有人正在理解洞察力,看到数字,或从结论中受益。 数据科学的这个定义因此强调: ·统计推断 ·数据可视化 ·实验设计 ·领域知识 ·通讯 数据科学家可能会使用简单的工具:他们可以报告百分比,并根据SQL查询制作线形图。他们还可以使用非常复杂的方法:使用分布式数据存储来分析数以万亿计的记录,开发尖端的统计技术,并构建交互式可视化。无论他们使用什么,目标是更好地了解他们的数据。 机器学习产生预测 我认为机器学习是一个预测领域:“给定具有特定特征的实例X,然后预测Y”。这些预测可能是关于未来(“预测这个病人是否会有败血症”),但是它们也可能是关于计算机不明显的特性(“预测这个图像是否有鸟”)。几乎所有的Kaggle比赛都被认为是有关机器学习的问题。他们提供一些训练数据,然后看看竞争对手是否可以对新的例子做出准确的预测。 数据科学和机器学习之间有很多重叠。例如,逻辑回归可以用来得出有关关系的见解(“用户越丰富,他们会购买产品的可能性越大,所以应该改变相应的营销策略”),并做出预测(“这个用户有一个购买我们产品的机会有53%,所以我们应该向他们建议“)。 像随机森林这样的模型可解释性稍差,而且更适合“机器学习”的描述,而深度学习等方法则正如大家熟知的难以解释。
大多数从业者会非常舒适地在两个任务之间来回切换。作者在工作中同时使用了机器学习和数据科学:他可能会在Stack Overflow流量数据上安装一个模型来确定哪些用户可能正在寻找工作(机器学习),然后总结和可视化来检验模型的工作原理(数据科学)。这是发现模型中的缺陷并对抗算法偏差的重要方法。同时也是数据科学家经常负责开发产品的机器学习组件的原因之一。 人工智能产生行动 人工智能是迄今为止这三种标识中最古老也是最广泛认可的,因此定义最具挑战性。这个术语被大量的炒作所包围,这要归功于研究人员、记者以及正在寻找金钱或关注的创业公司。
在“人工智能”定义中,一个共同的点是自主代理人执行或推荐操作(即Poole,Mackworth和Goebel 1998,Russell and Norvig 2003)。其实可以将一些系统描述为AI,包括: ·游戏规则(Deep Blue,AlphaGo) ·机器人技术和控制理论(运动规划,走路双足机器人) ·优化(Google地图选择路线) ·自然语言处理(机器人) ·强化学习 再次,我们可以看到很多与其他领域的重叠。深度学习对于跨越ML和AI领域来说特别有意思。典型的用例是对数据进行训练,然后进行预测,但在AlphaGo等游戏算法中取得了巨大的成功。(这与之前的游戏系统形成了鲜明的对比,比如深蓝(Deep Blue),它更专注于探索和优化未来的解决方案空间。) 但也有区别。如果分析一些销售数据,发现特定行业的客户比其他行业的客户更新更多(提取洞察力),则输出是一些数字和图表,而不是一个特定的操作。(主管人员可能会用这些结论来改变销售策略,但这种行为不是自主的)。这意味着如果说正在使用AI来提高销售额,就可以将自己的工作形容为数据科学。
人工智能和机器学习之间的区别有点微妙,历史上ML经常被认为是AI的一个子领域(计算机视觉,尤其是AI经典问题)。但是作者认为ML领域在很大程度上已经从AI中断了,部分原因在于上面所说的反弹:大多数从事预测问题的人不喜欢把自己形容为AI研究人员。(这有助于许多重要的ML突破来自统计学,在AI领域的其余部分中的存在较少)。这意味着如果你可以将问题描述为“从Y预测X”,我建议可以避免使用AI这个词。
案例分析:三者如何结合使用 假设我们正在建造一辆自动驾驶汽车,并正在研究停车标志停车的具体问题。我们需要从这三个领域抽取技能。 机器学习:汽车必须使用摄像头识别停车标志。我们构建了数百万个街景对象照片的数据集,并训练一个算法来预测哪些有停止迹象。 人工智能:一旦我们的车能识别停车标志,就需要决定何时采取刹车的动作。过早使用它们是危险的,我们需要它来处理不同的道路条件(例如,认识到在一条光滑的道路上它不会很快减速),这是一个控制理论问题。 (编辑:ASP站长网) |