一直以为用Python、java这样的语言就不在需要关心内存使用的问题,但事情还是发生了。
前一段时间需要写一个应用,需要将用户删除的记录在文件中的偏移记录到另一个文件中,由于需要load的最大的数据文件也就1.2GB左右,而且系统的初始化设置在凌晨1点左右,做了个小测试,在几秒钟的时间可以load完数据并通过二分查找确定边界初始化列表,看了看服务器内存还是很空闲的,就想偷个懒在内存中做二分查找。开始测试的时候找了个较小的数据文件一切都正常,但到了线上环境内存就一路狂升到1.3G左右停下,本以为是python内存泄露,但review了所有的代码也没有找到可疑的地方。将所有不用的变量del掉可是,难道垃圾回收没起作用,通过sys.getrefcount来查看了可疑的变量的引用计数,内存还是没有降下来,看来真是遇到诡异的事件了。
在网上谷歌了一下python内存方面的文章,有篇网文写到,python将不用的内存放到内存池而并不返回给操作系统。在这个绝望的时候也没有别的办法了,只有试试这个方法了,那内存申请的大头开刀吧!将二分查找放磁盘中来做,在将二分查找改为文件二分查找后内存仅仅占14MB左右。至此大功告成!
回头总结下以上遇到的问题,python作为动态语言为了保证效率的确可能将释放的内存放到内存池中以减少内存申请时用户态到内核态切换时锁消耗的时间。在用python处理大对象和内存密集型任务时要格外注意python进程对系统内存的占有率。