在GPU上加速数据科学

发布时间：2021-04-22 13:37:15 所属栏目：评论来源：互联网

导读：根据南通站长网 Www.0513Zz.Com报道者按，数据科学家需要算力。无论您是用 pandas 处理一个大数据集，还是用 Numpy 在一个大矩阵上运行一些计算，您都需要一台强大的机器，以便在合理的时间内完成这项工作。在过去的几年中，数据科学家常用的 Python 库已经

根据南通站长网 Www.0513Zz.Com报道

者按，数据科学家需要算力。无论您是用 pandas 处理一个大数据集，还是用 Numpy 在一个大矩阵上运行一些计算，您都需要一台强大的机器，以便在合理的时间内完成这项工作。

在过去的几年中，数据科学家常用的 Python 库已经非常擅长利用 CPU 能力。

Pandas 的基础代码是用 C 语言编写的，它可以很好地处理大小超过 100GB 的数据集。如果您没有足够的 RAM 来容纳这样的数据集，那么您可以使用分块功能，它很方便，可以一次处理一个数据块。

GPUs vs CPUs：并行处理

有了大量的数据，CPU 就不会切断它了。

一个超过 100GB 的数据集将有许多数据点，数据点的数值在数百万甚至数十亿的范围内。有了这么多的数据点要处理，不管你的 CPU 有多快，它都没有足够的内核来进行有效的并行处理。如果你的 CPU 有 20 个内核(这将是相当昂贵的 CPU)，你一次只能处理 20 个数据点!

CPU 在时钟频率更重要的任务中会更好——或者根本没有 GPU 实现。如果你尝试执行的流程有一个 GPU 实现，且该任务可以从并行处理中受益，那么 GPU 将更加有效。核系统如何更快地处理数据。对于单核系统(左)，所有 10 个任务都转到一个节点。对于双核系统(右)，每个节点承担 5 个任务，从而使处理速度加倍

深度学习已经在利用 GPU 方面发挥了相当大的作用。许多在深度学习中完成的卷积操作是重复的，因此在 GPU 上可以大大加速，甚至可以达到 100 次。

今天的数据科学没有什么不同，因为许多重复的操作都是在大数据集上执行的，库中有 pandas、Numpy 和 scikit-learn。这些操作也不太复杂，无法在 GPU 上实现。

最后，还有一个解决方案。

用 Rapids 加速 GPU

Rapids 是一套软件库，旨在利用 GPU 加速数据科学。它使用低级别的 CUDA 代码实现快速的、GPU 优化的算法，同时它上面还有一个易于使用的 Python 层。

Rapids 的美妙之处在于它与数据科学库的集成非常顺利，比如 pandas 数据帧就很容易通过 Rapids 实现 GPU 加速。下图说明了 Rapids 如何在保持顶层易用旦命令完成运行，就可以开始用 GPU 加速数据科学了。

设置我们的数据

对于本教程，我们将介绍 DBSCAN demo 的修改版本。我将使用 Nvidia 数据科学工作站和 2 个 GPU 运行这个测试。

DBSCAN 是一种基于密度的聚类算法，可以自动对数据进行分类，而无需用户指定有多少组数据。在 Scikit-Learn 中有它的实现。

我们将从获取所有导入设置开始。先导入用于加载数据、可视化数据和应用 ML 模型的库

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!