python数据分析之DataFrame内存优化-编程学习网

短信预约信息系统项目管理师报名、考试、查分时间动态提醒

1. pandas查看数据占用大小

给大家看一下这么查看自己的内存大小（user_log是dataframe的名字）


#方法1 就是使用查看dataframe信息的命令
user_log.info()
#方法2 使用memory_usage()或者getsizeof(user_log)
import time
import sys
print('all_data占据内存约: {:.2f} GB'.format(user_log.memory_usage().sum()/ (1024**3)))
print('all_data占据内存约: {:.2f} GB'.format(sys.getsizeof(user_log)/(1024**3)))

我这里有个dataframe文件叫做user_log，原始大小为1.91G，然后pandas读取出来，内存使用了2.9G。

看一下原始数据大小：1.91G

在这里插入图片描述

pandas读取后的内存消耗：2.9G

在这里插入图片描述

2. 对数据进行压缩

数值类型的列进行降级处理（‘int16', ‘int32', ‘int64', ‘float16', ‘float32', ‘float64'）
字符串类型的列转化为类别类型（category）
字符串类型的列的类别数超过总行数的一半时，建议使用object类型

我们这里主要采用对数值型类型的数据进行降级，说一下降级是什么意思意思呢，可以比喻为一个一个抽屉，你有一个大抽屉，但是你只装了钥匙，这就会有很多空间浪费掉，如果我们将钥匙放到一个小抽屉里，就可以节省很多空间，就像字符的类型int32 比int8占用空间大很多，但是我们的数据使用int8类型就够了，这就导致数据占用了很多空间，我们要做的就是进行数据类型转换，节省内存空间。

压缩数值的这段代码是从天池大赛的某个项目中看见的，查阅资料后发现，大家压缩内存都是基本固定的函数形式


def reduce_mem_usage(df):
    starttime = time.time()
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if pd.isnull(c_min) or pd.isnull(c_max):
                continue
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    print('-- Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction),time spend:{:2.2f} min'.format(end_mem,
                                                                                                           100*(start_mem-end_mem)/start_mem,
                                                                                                           (time.time()-starttime)/60))
    return df

用压缩的方式将数据导入user_log2中


#首先读取到csv中如何传入函数生称新的csv
user_log2=reduce_mem_usage(pd.read_csv(r'/Users/liucong/MainFiles/ML/tianchi/tianmiao/user_log_format1.csv'))

读取成功：内训大小为890.48m 减少了69.6%，效果显著

在这里插入图片描述

查看压缩后的数据集信息：类型发生了变化，数量变小了

在这里插入图片描述

3. 参考资料

《天池大赛》
《kaggle大赛》
链接: pandas处理datafarme节约内存.

到此这篇关于python数据分析之DataFrame内存优化的文章就介绍到这了,更多相关python DataFrame内存优化内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

python数据分析之DataFrame内存优化

目录

1. pandas查看数据占用大小

2. 对数据进行压缩

3. 参考资料

软考中级精品资料免费领

相关文章

猜你喜欢

python数据分析之DataFrame内存优化

Android性能优化之内存优化的示例分析

Python数据分析之 Pandas Dataframe应用自定义

Python数据分析之Pandas Dataframe如何自定义

Python数据分析之Pandas Dataframe怎么合并和去重

Python数据分析之 Pandas Dataframe合并和去重操作

Python数据分析之 Pandas Dataframe条件筛选遍历详情

Python数据分析之Matplotlib数据可视化

Python数据分析Pandas Dataframe排序操作

Python数据分析之Pandas Dataframe怎么修改、删除及查询

Golang函数性能优化之内存对齐优化

Python数据分析之Pandas Dataframe条件筛选遍历的方法

如何分析SAP内存优化配置

Python数据分析之 Pandas Dataframe修改和删除及查询操作

MySQL数据库性能优化之SQL优化的示例分析

Android性能优化之JVMTI与内存分配

解析Android开发优化之:对Bitmap的内存优化详解

怎么用python分析游戏内存数据

Golang函数性能优化之存储分配优化

数据库查询优化之子查询优化的示例分析