使用Dask在Python中进行并行计算
发布时间:2019-04-18 17:46 所属栏目:21 来源:Moshe Zadka
导读:Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。 关于 Python 性能的一个常见抱怨是全局解释器锁(GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。 但当你需要并行化到多
Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。 关于 Python 性能的一个常见抱怨是全局解释器锁(GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。 但当你需要并行化到多核时,你不需要放弃使用 Python:Dask 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展规模的限制,但一般达不到。 虽然 Dask 有许多内置的数组操作,但举一个非内置的例子,我们可以计算偏度:
请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。 当然,并不是我们所有的操作都可由这个库并行化,有时我们需要自己实现并行性。 为此,Dask 有一个“延迟”功能:
这将计算字符串是否是回文并返回回文的数量。 虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。 【责任编辑:庞桂玉 TEL:(010)68476606】点赞 0 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读