Python 读取大文件-编程学习网

在处理大数据时，有可能会碰到好几个 G 大小的文件。如果通过一些工具（例如：NotePad++）打开它，会发生错误，无法读取任何内容。

那么，在 Python 中，如何快速地读取这些大文件呢？

读取文件，最常见的方式是：

with open('filename', 'r', encoding = 'utf-8') as f:
    for line in f.readlines():
        do_something(line)

但是，当完成这一操作时，readlines() 方法（read() 也一样）会将整个文件加载到内存中。在文件较大时，往往会引发 MemoryError（内存溢出）。

那么，如何避免这个问题？

稍微好点儿的方式是使用 fileinput 模块：

import fileinput

for line in fileinput.input(['filename']):
    do_something(line)

调用 fileinput.input() 会按照顺序读取行，但是在读取之后不会将它们保留在内存中。

除此之外，也可使用 while() 循环和 readline() 来逐行读取：

with open('filename', 'r', encoding = 'utf-8') as f:
    while True:
        line = f.readline()  # 逐行读取
        if not line:  # 到 EOF，返回空字符串，则终止循环
            break
        do_something(line)

有时，可能希望对每次读取的内容进行更细粒度的控制。

在这种情况下，可以使用 iter 和 yield：

def read_in_chunks(file_obj, chunk_size = 2048):
    """
    逐件读取文件
    默认块大小：2KB
    """
    while True:
        data = file_obj.read(chunk_size)  # 每次读取指定的长度
        if not data:
            break
        yield data

with open('filename', 'r', encoding = 'utf-8') as f:
    for chuck in read_in_chunks(f):
        do_something(chunk)

这才是 Pythonci 最完美的方式，既高效又快速：

with open('filename', 'r', encoding = 'utf-8') as f:
    for line in f:
        do_something(line)

with 语句句柄负责打开和关闭文件（包括在内部块中引发异常时），for line in f 将文件对象 f 视为一个可迭代的数据类型，会自动使用 IO 缓存和内存管理，这样就不必担心大文件了。

How to read large file, line by line in python

文章详情

Python 读取大文件

软考中级精品资料免费领

相关文章

猜你喜欢

Python 读取大文件

python读取大文件

Python读取大文件(GB)

python怎么读取大文件

强悍的 Python —— 读取大文件

怎么中python读取大文件

Python按行读取文件的实现方法【小文件和大文件读取】

python如何流式读取大文件

python对大文件的增量读取

Python文件读取技巧：读取.py文件步骤

【Python】Python读取CSV文件

python文件读取 readlines

python读取sqlite文件

python读取table文件

python读取xlsx文件

python简单读取大文件的方法

python文件的读取

python读取xml文件

python读取nc文件

Golang文件读取操作：快速读取大文件的技巧