1.基本方法
文件读写调用open函数打开一个文件描述符(描述符的个数在操作系统是定义好的)
python3情况下读写文件:
f = open('py3.txt','wt',encoding='utf-8')
f.write('你好')
f.close()
f = open('py3.txt','rt',encoding='utf-8')
s = f.read()
print(s)
这段代码是可以把中文写入文件的。其中open函数的每个参数含义如下:
py3.txt—->文件名
rt/wt —->’t’: 以文本模式打开(缺省模式) w 写, r 读
encodeing=’utf-8’–>指返回的数据编码 以utf-8为编码格式
文件中显示汉字你好
尝试改变编码格式:为gbk,文件中显示如下
并不是之前的汉字,虽然是这样,但是在读取的时候编码格式选择gbk也是能够正确读取的。
确保的一点,是写入的格式和读取的编码格式保持一致即可。
2.设置文件缓冲
缓冲分三种:
全缓冲 : open函数的buffering设置大于1的整数n,n为缓冲区大小,linux默认为page的大小4096 满了n 个字节才会写入磁盘 。
f=open(“demo.txt”,’w’,buffering=1)
行缓冲 : open 函数的buffering设置为1, 碰到换行就会将缓冲区的写入磁盘。
f=open(“demo.txt”,’w’,buffering=1)
无缓冲 : open 函数的buffering设置为0 有输入就写入磁盘。
f=open(“demo.txt”,’w,’,buffering=0)
缓冲的目的:是为了减少系统的io调用。只有当符合一定条件(比如缓冲数量)时才调用io。
3.文件映射到内存
今天读到一个比较有意思的文章。把文件中的数据映射到内存。主要针对的是二进制的文件来进行映射。
文章中提到的用处有两点:
1.随机访问 2.进程间通信
但是如果不进行内存映射的话,也是可以达到上面两个要求的.
先创建一个二进制文件
dd if=/dev/zero of=demo.bin bs=1024 count=1024
od -x demo.bin
如下图:
import mmap
import os
f = open('demo.bin','r+b')
f.fileno()
m = mmap.mmap(f.fileno(),0,access=mmap.ACCESS_WRITE)
返回的m是一个mmap.mmap类型的变量。可以进行类似于list的操作。比如分片等。
4.访问文件的状态
比如文件类型 ,访问权限,最后修改时间点,文件大小
使用系统的调用就可以达到,也可以使用os.path来进行。
5.临时文件
临时文件的作用和lambda函数类似
加入我们进行时时的数据解析,在获取的数据超过一个G时进行分析,然后释放。只保存自己需要的。那么使用临时文件就可以。
临时文件不需要命名,在close之后会自动删除。
from tempfile import TemporaryFile,NamedTemporaryFile
#用文件描述符来操作临时文件
f = TemporaryFile()
f.write('abcdef'*10000)
f.seek(0)
f.read(100)
ntf = NamedTemporaryFile()
#返回文件路径
ntf.name