短信预约-IT技能免费直播动态提醒

短信预约提醒成功

手把手教你用Python网络爬虫实现起点小说下载

2024-12-03 07:43

关注

今天要跟大家分享一个小说爬取案例--------起点小说的小说下载。

在做这个案例之前，我们需要对其进行分析，

界面分析，如图：

通过分析很容易就找到了我们的get请求参数，然后获取相应页面的小说名和链接：

获取到数据之后，我们就随机挑选一篇小说来进行下载，我们选第一篇，

然后打开它的文章目录，可以看到是这样的，如图：

基本上这篇小说很长，可以看到它卷一和卷二是免费的，后面的收费，那么今天我们就只爬免费的章节。

那么我们现在开始分析网页结构，如图：

那么，我们可以先把卷一的名字和章节数以及章节下的每个章节的名字都打印出来。

首先我们可以分析下这个网页地址，如图：

https://book.qidian.com/info/1014243481#Catalog

发觉前面的没变，基本就是后面的变了，增加了一个info/1014243481#Catalog,下面开始分析：

info：信息的意思，

1014243481：小说对应的ID，

#Catalog：数据补全，无太大意义

因为刚刚已经将文章链接的内容爬取出来，所以现在只需要拼接一个#Catalog 即可：

下面我们就可以对它发起请求然后在分析它的页面了，首先发起get请求，按照前面的网页分析结构来看，我们应该这样写：

可以看出，因为这里有异步加载，所以我们的请求不会一下子全部显示出来，需要不断的请求，当然最好加个延迟。

这样我们就获取到了这个页面所有的小说，也可以这样，因为我们没找接口，所以强行解析只能解析部分内容，但是也很全面了。如图：

找的还算挺详细，只不过没有找接口时所拿到的数据那么规范好看了。

来源： Python爬虫与数据挖掘内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1148
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2756

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 813人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 354人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 318人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 435人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 224人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

手把手教你用Python网络爬虫实现起点小说下载

后端开发 Python 小说下载2024-12-03

如何使用Python网络爬虫实现起点小说下载

后端开发2023-06-15

手把手教你使用Python网络爬虫获取招聘信息

后端开发 Python 开发2024-12-11

手把手教你使用Python网络爬虫实现邮件定时发送（附源码）

后端开发 Python 网络爬虫2024-12-02

手把手教你用Python网络爬虫+自动化来创建一位属于你自己的虚拟女神(附源码)

后端开发 Python 网络爬虫2024-12-03

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧