引言
要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件,这并不难,但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒!今天我将以处理微博热搜数据来示例如何使用Python批量处理文件夹中的文件,主要将涉及:
- Python批量读取不同文件夹(⭐⭐⭐)
- Pandas数据处理(⭐⭐)
- Python操作Markdown文件(⭐)
需求分析
首先来说明一下需要完成的任务,下面是我们的文件夹结构
因为微博历史热搜是没有办法去爬的,所以只能写一个爬虫每天定时爬取热搜并保存,所以在我当时分析数据时使用的就是上图展示的数据,每天的数据以套娃形式被保存在三级目录下,并且热搜是以markdown文件存储的,打开是这样