设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

机器学习爱好者必读的入门指南

发布时间:2019-08-09 13:03 所属栏目:19 来源:佚名
导读:本指南适用于任何对机器学习(Machine Learning,ML)感兴趣但不知道从何开始的人。 我们的目标是让任何人都可以理解,这意味着文中会有很多概述。但谁在乎呢?如果能使一些人对机器学习更感兴趣,我们将倍感欣慰。 什么是机器学习? 机器学习的概念是用一

机器学习爱好者必读的入门指南

本指南适用于任何对机器学习(Machine Learning,ML)感兴趣但不知道从何开始的人。

我们的目标是让任何人都可以理解,这意味着文中会有很多概述。但谁在乎呢?如果能使一些人对机器学习更感兴趣,我们将倍感欣慰。

什么是机器学习?

机器学习的概念是用一些通用算法告诉你关于一组数据的一些有趣的事情,而不需要你编写任何特定于问题的自定义代码。你不需要编写代码,而是将数据提供给通用算法,它将根据数据构建自己的逻辑。

例如,其中一种算法是分类算法。它可以将数据放入不同的组中。同样的分类算法可以用于识别手写数字,也可以用于将电子邮件分为垃圾邮件和非垃圾邮件,却不需要改变一行代码。使用相同的算法,但输入不同的训练数据,算法就会产生不同的分类逻辑。

机器学习爱好者必读的入门指南

这种机器学习算法是一个黑箱,可以被用于许多不同的分类问题。

“机器学习”是一个涵盖了大量这类通用算法的总称。

两种机器学习算法

你可以将机器学习算法分为两大类——监督学习和无监督学习。区别很简单,但非常重要。

监督学习

假设你是一个房地产经纪人。你的业务正在增长,因此你聘请了一批新的实习生来帮助你。但是有一个问题:你能够随便看一下房子就能对房子的价格有一个很好的估计,但是你的实习生没有你的经验,所以他们不知道该如何定价。

为了帮助你的实习生(也许还能为你腾出时间去度假),你决定写一个小应用程序,根据你所在地区的房子的大小、社区等,以及类似房屋的售价来估算房屋的价格。

因此,每当有人在你所在城市出售房屋,你都需要记录下来,持续 3 个月。对于每套房子,你都要记录大量细节:卧室的数量、平方英尺为统一单位的面积、社区等。但最重要的是,你要记录最终的销售价格:

机器学习爱好者必读的入门指南

这是我们的“训练数据”。

利用这些训练数据,我们想创建一个程序,可以估算出所在地区其他房屋的价格:

机器学习爱好者必读的入门指南

我们想用训练数据来预测其他房屋的价格

这就是监督学习。你知道每套房子卖多少钱,换句话说,你知道问题的答案,并且可以从那里逆向计算出逻辑。

为了构建应用程序,你需要把每套房子的训练数据输入到你的机器学习算法中。该算法会尝试找出需要做什么样的数学运算才能算出数字。

这类似于拥有数学考试的答案,但是中间的运算符号都被擦去了:

机器学习爱好者必读的入门指南

一个狡猾的学生擦掉了老师的答案上的算术符号!

从这里,你能得出考试中的数学问题是什么吗?你需要知道你应该用左边的数字“做点什么运算” 来得到右边的每个答案。

在监督学习中,就是让计算机为你计算这种关系。一旦你知道解决这组特定的问题需要什么数学知识,你就可以回答任何同类型的问题!

无监督的学习

让我们回到最初房地产经纪人的例子。如果你不知道每套房子的售价怎么办?即使你只知道每套房子的大小、位置等,你仍然可以做一些非常酷的事情。这就是无监督学习。

机器学习爱好者必读的入门指南

即使不想预测未知数字(比如价格),你仍然可以用机器学习做些有趣的事情。

这有点像是有人给你一张纸,纸上是数字列表,然后说:“我真的不知道这些数字有什么意思,但也许你能搞清楚是否有模式、分组或其他东西,祝你好运!”

那么用这些数据能做些什么呢?首先,你可以使用算法自动识别数据中的不同细分市场。也许你会发现,当地大学附近的购房者确实很喜欢有很多卧室的小房子,但是郊区的购房者更喜欢有很多平方英尺的三居室的房子。了解这些不同类型的客户有助于指导你的营销工作。

你能做的另一件很酷的事情是自动识别出任何与其他地方截然不同的住宅。也许那些离群的房子是豪宅,你可以把最好的销售人员集中在那些地区,因为他们能给出更多的佣金。

监督学习是我们将在这篇文章的其余部分重点关注的内容,但这并不是因为无监督学习不那么有用或不太有趣。事实上,随着算法的改进,无监督学习正在变得越来越重要,因为它可以在不需要给数据贴上正确答案标签的情况下使用。

附注:还有很多其他类型的机器学习算法,但现在已经是一个很好的开端。

这很酷,但是能够估算房价真的算作“学习”吗?

作为一个人,你的大脑几乎可以处理任何情况,并且是在没有任何明确指示的情况下学习如何处理这种情况。如果你长时间卖房子,你会本能地“察觉”到房子的合适价格、出售房子的最佳方式、感兴趣的客户类型等。强人工智能研究的目标就是能够用计算机复现这种能力。

然而目前的机器学习算法还不够好,它们只在关注一个非常具体且有限的问题时才起作用。在这种情况下,“学习”的一个更好的定义可能是“根据一些实例数据,找出解决特定问题的方程式”。

不幸的是,“机器根据一些实例数据计算出方程来解决特定的问题”并不是一个很好的名字。所以我们最终仍以“机器学习”命名。

当然,如果你在未来 50 年后读到这篇文章,并且我们已经找到了强人工智能的算法,那么这篇文章都会显得有点古怪。

让我们来写一写这个程序!

那么,如何编写程序来估算上面的例子中房子的价格呢?在进一步阅读之前,请考虑一下。

如果你对机器学习一无所知,你可能会试着写出一些估算房屋价格的基本规则,就像这样: 

  1. def estimate_house_sales_price(num_of_bedrooms, sqft, neighborhood):  
  2.        price = 0  
  3.        # In my area, the average house costs $200 per sqft  
  4.        price_per_sqft = 200  
  5.        if neighborhood == "hipsterton":  
  6.        # but some areas cost a bit more  
  7.        price_per_sqft = 400  
  8.        elif neighborhood == "skid row":  
  9.            # and some areas cost less  
  10.            price_per_sqft = 100  
  11.        # start with a base price estimate based on how big the place is  
  12.        price = price_per_sqft*sqft  
  13.        # now adjust our estimate based on the number of bedrooms  
  14.        if num_of_bedrooms == 0:  
  15.            # Studio apartments are cheap  
  16.            priceprice = price — 20000  
  17.        else:  
  18.            # places with more bedrooms are usually  
  19.            # more valuable  
  20.            priceprice = price + (num_of_bedrooms * 1000)  
  21.        return price 

如果你花几个小时来研究,可能会得到一些有用的东西。但你的程序永远不会完美,而且随着价格的变化,它将很难维持。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读