文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python数据处理pandas读写操作IO工具CSV怎么使用

2023-07-02 13:30

关注

这篇“Python数据处理pandas读写操作IO工具CSV怎么使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python数据处理pandas读写操作IO工具CSV怎么使用”文章吧。

前言

pandasIO API 是一组顶层的 reader 函数,比如 pandas.read_csv(),会返回一个 pandas 对象。

而相应的 writer 函数是对象方法,如 DataFrame.to_csv()

注意:后面会用到 StringIO,请确保导入

# python3from io import StringIO# python2from StringIO import StringIO

1 CSV 和文本文件

读取文本文件的主要函数是 read_csv()

1 参数解析

read_csv() 接受以下常用参数:

1.1 基础

filepath_or_buffer: 变量

sep: str,默认 ,,对于 read_table\t

delimiter: str, 默认为 None

1.2 列、索引、名称

header: intlist, 默认为 'infer'

names: array-like, 默认为 None

index_col: int, str, sequence of int/str, False, 默认为 None

usecols: 列表或函数, 默认为 None

In [1]: import pandas as pdIn [2]: from io import StringIOIn [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"In [4]: pd.read_csv(StringIO(data))Out[4]:   col1 col2  col30    a    b     11    a    b     22    c    d     3In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])Out[5]:   col1  col30    a     11    a     22    c     3

使用此参数可以大大加快解析时间并降低内存使用

squeeze: boolean, 默认为 False

prefix: str, 默认为 None

mangle_dupe_cols: boolean, 默认为 True

1.3 常规解析配置

dtype: 类型名或类型字典(column -> type), 默认为 None

engine: {'c', 'python'}

converters: dict, 默认为 None

true_values: list, 默认为 None

false_values: list, 默认为 None

skipinitialspace: boolean, 默认为 False

skiprows: 整数或整数列表, 默认为 None

In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"In [7]: pd.read_csv(StringIO(data))Out[7]:   col1 col2  col30    a    b     11    a    b     22    c    d     3In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)Out[8]:   col1 col2  col30    a    b     2

skipfooter: int, 默认为 0

nrows: int, 默认为 None

memory_map: boolean, 默认为 False

1.4 NA 和缺失数据处理

na_values: scalar, str, list-like, dict, 默认为 None

keep_default_na: boolean, 默认为 True

注意:如果 na_filter=False,那么 keep_default_nana_values 参数将被忽略

na_filter: boolean, 默认为 True

skip_blank_lines: boolean, 默认为 True

1.5 日期时间处理

parse_dates: 布尔值、列表或嵌套列表、字典, 默认为 False.

infer_datetime_format: 布尔值, 默认为 False

date_parser: 函数, 默认为 None

dayfirst: 布尔值, 默认为 False

cache_dates: 布尔值, 默认为 True

1.6 迭代

iterator: boolean, 默认为 False

1.7 引用、压缩和文件格式

compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, 默认为 'infer'

compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}

thousandsstr, 默认为 None

decimal: str, 默认为 '.'

float_precision: string, 默认为 None

quotechar: str (长度为 1)

comment: str, 默认为 None

encoding: str, 默认为 None

1.8 错误处理

error_bad_linesboolean, 默认为 True

warn_bad_linesboolean, 默认为 True

2. 指定数据列的类型

您可以指示整个 DataFrame 或各列的数据类型

In [9]: import numpy as npIn [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"In [11]: print(data)a,b,c,d1,2,3,45,6,7,89,10,11In [12]: df = pd.read_csv(StringIO(data), dtype=object)In [13]: dfOut[13]:    a   b   c    d0  1   2   3    41  5   6   7    82  9  10  11  NaNIn [14]: df["a"][0]Out[14]: '1'In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})In [16]: df.dtypesOut[16]: a      int64b     objectc    float64d      Int64dtype: object

你可以使用 read_csv()converters 参数,统一某列的数据类型

In [17]: data = "col_1\n1\n2\n'A'\n4.22"In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str})In [19]: dfOut[19]:   col_10     11     22   'A'3  4.22In [20]: df["col_1"].apply(type).value_counts()Out[20]: <class 'str'>    4Name: col_1, dtype: int64

或者,您可以在读取数据后使用 to_numeric() 函数强制转换类型

In [21]: df2 = pd.read_csv(StringIO(data))In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")In [23]: df2Out[23]:    col_10   1.001   2.002    NaN3   4.22In [24]: df2["col_1"].apply(type).value_counts()Out[24]: <class 'float'>    4Name: col_1, dtype: int64

它将所有有效的数值转换为浮点数,而将无效的解析为 NaN

最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 NaN,那么 to_numeric() 可能是您的最佳选择。

然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 read_csv()converters 参数会更好

注意

在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。

如果您依赖 pandas 来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。

In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))In [26]: df = pd.DataFrame({"col_1": col_1})In [27]: df.to_csv("foo.csv")In [28]: mixed_df = pd.read_csv("foo.csv")In [29]: mixed_df["col_1"].apply(type).value_counts()Out[29]: <class 'int'>    737858<class 'str'>    262144Name: col_1, dtype: int64In [30]: mixed_df["col_1"].dtypeOut[30]: dtype('O')

这就导致 mixed_df 对于列的某些块包含 int 类型,而对于其他块则包含 str,这是由于读取的数据是混合类型。

以上就是关于“Python数据处理pandas读写操作IO工具CSV怎么使用”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯