设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 创业者
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

干货收藏!Python完整代码带你一文看懂抽样(4)

发布时间:2019-09-25 12:36 所属栏目:21 来源:宋天龙
导读:首先使用Numpy的loadtxt方法导入已经划分好整群的数据集。在该示例中,读取的数据文件中的最后一列存放了不同整群的标识,整群一共被划分为4个群组,标识分别为0、1、2、3。接着通过unique方法获取整群标签的值域,

首先使用Numpy的loadtxt方法导入已经划分好整群的数据集。在该示例中,读取的数据文件中的最后一列存放了不同整群的标识,整群一共被划分为4个群组,标识分别为0、1、2、3。接着通过unique方法获取整群标签的值域,用于基于整群的抽样。打印输出结果如下:

  1. [ 0. 1. 2. 3.] 

然后使用Random的sample方法从整群标签中进行抽样,这里定义抽取2个整群。最后将所有属于抽取到的整群下的数据进行读取和追加,并得到最终样本集,打印输出样本集的整群标签和总样本数量,结果如下:

  1. [3.0, 1.0] 
  2. 502 

由于是随机概率抽样,因此读者使用代码抽取到的样本很可能与笔者示例不一致,这属于正常现象。另外,读者多次随机抽样程序也可能得到不一样的结果。

上述过程中,需要考虑的关键点是:如何根据不同的数据特点、建模需求、业务背景综合考虑抽样方法,得到最适合的结果

代码实操小结:本节示例中,主要用了几个知识点:

  • 使用Numpy的loadtxt方法读取数据文件。
  • 使用内置标准库Random库中的sample方法做数据抽样。
  • 对列表通过索引做截取、通过len方法做长度统计、通过append和extend做追加等操作。
  • 字典赋值操作。
  • 使用Numpy的unique方法获得唯一值。
  • 通过for和while循环,遍历一个可迭代的对象。
  • if条件语句的使用,尤其是单条件和多条件判断。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读