文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

在 Python中处理大型机器学习数据集的简单方法

2024-12-01 15:49

关注
  1. 想要对大量数据集执行 Pandas/NumPy 操作的人。
  2. 希望使用Python在大数据上执行机器学习任务的人。

本文将使用 .csv 格式的文件来演示 python 的各种操作,其他格式如数组、文本文件等也是如此。

为什么我们不能将 pandas 用于大型机器学习数据集呢?

我们知道 Pandas 使用计算机内存 (RAM) 来加载您的机器学习数据集,但是,如果您的计算机有8 GB 的内存 (RAM),那么为什么 pandas 仍然无法加载 2 GB 的数据集呢?原因是使用 Pandas 加载 2 GB 文件不仅需要 2 GB RAM,还需要更多内存,因为总内存需求取决于数据集的大小以及您将在该数据集上执行的操作。

以下是加载到计算机内存中的不同大小的数据集的快速比较:

此外,Pandas只使用操作系统的一个内核,这使得处理速度很慢。换句话说,我们可以说pandas不支持并行(将一个问题分解成更小的任务)。

假设电脑有 4 个内核,下图是加载 CSV 文件的时候 pandas 使用的内核数:

普遍不使用 pandas 处理大型机器学习数据集的主要原因有以下两点,一是计算机内存使用量,二是缺乏并行性。在 NumPy 和 Scikit-learn中,对于大数据集也面临同样的问题。

为了解决这两个问题,可以使用名为Dask的python库,它能够使我们在大型数据集上执行pandas、NumPy和ML等各种操作。

Dask是如何工作的?

Dask是在分区中加载你的数据集,而pandas通常是将整个机器学习数据集作为一个dataframe。在Dask中,数据集的每个分区都被认为是一个pandas dataframe。

Dask 一次加载一个分区,因此您不必担心出现内存分配错误问题。

以下是使用 dask 在计算机内存中加载不同大小的机器学习数据集的比较:

Dask 解决了并行性问题,因为它将数据拆分为多个分区,每个分区使用一个单独的内核,这使得数据集上的计算更快。

假设电脑有 4 个内核,以下是 dask 在加载 5 GB csv 文件时的方式:

要使用 dask 库,您可以使用以下命令进行安装:

pip install dask

Dask 有几个模块,如dask.array、dask.dataframe 和 dask.distributed,只有在您分别安装了相应的库(如 NumPy、pandas 和 Tornado)后才能工作。

如何使用 dask 处理大型 CSV 文件?

dask.dataframe 用于处理大型 csv 文件,首先我尝试使用 pandas 导入大小为 8 GB 的数据集。

import pandas as pd
df = pd.read_csv(“data.csv”)

它在我的 16 GB 内存笔记本电脑中引发了内存分配错误。

现在,尝试使用 dask.dataframe 导入相同的 8 GB 数据

dask 只用了一秒钟就将整个 8 GB 文件加载到 ddf 变量中。

让我们看看 ddf 变量的输出。

如您所见,执行时间为 0.5 秒,这里显示已划分为 119 个分区。

您还可以使用以下方法检查数据帧的分区数:

默认情况下,dask 将我的 8 GB CSV 文件加载到 119 个分区(每个分区大小为 64MB),这是根据可用的物理内存和电脑的内核数来完成的。

还可以在加载 CSV 文件时使用 blocksize 参数指定我自己的分区数。

现在指定了一个字符串值为 400MB 的 blocksize 参数,这使得每个分区大小为 400 MB,让我们看看有多少个分区

关键点:使用 Dask DataFrames 时,一个好的经验法则是将分区保持在 100MB 以下。

使用以下方法可调用dataframe的特定分区:

也可通过使用负索引来调用最后一个分区,就像我们在调用列表的最后一个元素时所做的那样。

让我们看看数据集的形状:

您可以使用 len() 检查数据集的行数:

Dask 已经包含了示例数据集。我将使用时间序列数据向您展示 dask 如何对数据集执行数学运算。

导入dask.datasets后,ddf_20y 加载了从 2000 年 1 月 1 日到 2021 年 12 月 31 日的时间序列数据。

让我们看看我们的时间序列数据的分区数。

20 年的时间序列数据分布在 8035 个分区中。

在 pandas 中,我们使用 head 打印数据集的前几行,dask 也是这样。

让我们计算一下 id 列的平均值。

dask不会打印dataframe的总行数,因为它使用惰性计算(直到需要时才显示输出)。为了显示输出,我们可以使用compute方法。

假设我想对数据集的每一列进行归一化(将值转换为0到1之间),Python代码如下:

循环遍历列,找到每列的最小值和最大值,并使用简单的数学公式对这些列进行归一化。

关键点:在我们的归一化示例中,不要认为会发生实际的数值计算,它只是惰性求值(在需要之前永远不会向您显示输出)。

为什么要使用 Dask 数组?

Dask 将数组分成小块,其中每个块都是一个 NumPy 数组。

dask.arrays 用于处理大数组,以下Python代码使用 dask 创建了一个 10000 x 10000 的数组并将其存储在 x 变量中。

调用该 x 变量会产生有关数组的各种信息。

查看数组的特定元素

对dask 数组进行数学运算的Python示例:

正如您所看到的,由于延迟执行,它不会向您显示输出。我们可以使用compute来显示输出:

dask 数组支持大多数 NumPy 接口,如下所示:

但是,Dask Array 并没有实现完整 NumPy 接口。

你可以从他们的官方文档中了解更多关于 dask.arrays 的信息。

什么是Dask Persist?

假设您想对机器学习数据集执行一些耗时的操作,您可以将数据集持久化到内存中,从而使数学运算运行得更快。

从 dask.datasets 导入了时间序列数据

让我们取数据集的一个子集并计算该子集的总行数。

计算总行数需要 27 秒。

我们现在使用 persist 方法:

持久化我们的子集总共花了 2 分钟,现在让我们计算总行数。

同样,我们可以对持久化数据集执行其他操作以减少计算时间。

persist应用场景:

为什么选择 Dask ML?

Dask ML有助于在大型数据集上使用流行的Python机器学习库(如Scikit learn等)来应用ML(机器学习)算法。

什么时候应该使用 dask ML?

正如你所看到的,随着模型大小的增加,例如,制作一个具有大量超参数的复杂模型,它会引起计算边界的问题,而如果数据大小增加,它会引起内存分配错误。因此,在这两种情况下(红色阴影区域)我们都使用 Dask 来解决这些问题。

如官方文档中所述,dask ml 库用例:

让我们看一下 Dask.distributed 的架构:

Dask 让您能够在计算机集群上运行任务。在 dask.distributed 中,只要您分配任务,它就会立即开始执行。

简单地说,client就是提交任务的你,执行任务的是Worker,调度器则执行两者之间通信。

python -m pip install dask distributed –upgrade

如果您使用的是单台机器,那么就可以通过以下方式创建一个具有4个worker的dask集群

如果需要dashboard,可以安装bokeh,安装bokeh的命令如下:

pip install bokeh

就像我们从 dask.distributed 创建客户端一样,我们也可以从 dask.distributed 创建调度程序。

要使用 dask ML 库,您必须使用以下命令安装它:

pip install dask-ml

我们将使用 Scikit-learn 库来演示 dask-ml 。

假设我们使用 Grid_Search 方法,我们通常使用如下Python代码

使用 dask.distributed 创建一个集群:

要使用集群拟合 scikit-learn 模型,我们只需要使用 joblib。

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯