11个Python Pandas小技巧让你的工作更高效(附代码实例)(2)
当构建模型时,我们可能会去除包含过多缺失值或是全部是缺失值的行。这时可以使用.isnull()和.sum()来计算指定列缺失值的数量。
在SQL中我们可以使用 SELECT * FROM … WHERE ID in (‘A001’,‘C022’, …)来获取含有指定ID的记录。如果你也想在Pandas中做类似的事情,你可以使用:
10. 基于分位数分组 面对一列数值,你想将这一列的值进行分组,比如说最前面的5%放入组别一,5-20%放入组别二,20%-50%放入组别三,最后的50%放入组别四。当然,你可以使用pandas.cut,但你也可以使用下面这种选择:
这种方法的运行速度很快(并没有使用到apply函数)。 11. to_csv 这又是一个大家都会用的命令。我想在这里列出两个小技巧。首先是
你可以使用这个命令打印出将要输出文件中的前五行记录。 另一个技巧是用来处理整数值和缺失值混淆在一起的情况。如果一列含有缺失值和整数值,那么这一列的数据类型会变成float而不是int。当导出表格时,你可以加上float_format=‘%.0f’以便将所有的浮点数近似成整数。当你想把所有列的输出值都变成整数格式时,就可以使用这个技巧,这样一来你就会告别所有数值后带“.0”的烦恼。 原文标题: 10 PythonPandas tricks that make your work more efficient 原文链接: https://towardsdatascience.com/10-python-pandas-tricks-that-make-your-work-more-efficient-2e8e483808ba 译者简介 吴振东,法国洛林大学计算机与决策专业硕士。现从事人工智能和大数据相关工作,以成为数据科学家为终生奋斗目标。来自山东济南,不会开挖掘机,但写得了Java、Python和PPT。 【编辑推荐】
点赞 0 (编辑:ASP站长网) |