文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

在Python中使用requests库爬取数据时返回为空如何解决

2023-06-06 11:03

关注

在Python中使用requests库爬取数据时返回为空如何解决?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

Python主要用来做什么

Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。

html字段:

在Python中使用requests库爬取数据时返回为空如何解决

robots协议:

在Python中使用requests库爬取数据时返回为空如何解决

现在我们开始用python IDLE 爬取

在Python中使用requests库爬取数据时返回为空如何解决

import requestsr = requests.get("https://baike.so.com/doc/24368318-25185095.html")r.status_coder.text

结果分析,我们可以成功访问到该网页,但是得不到网页的结果。被360搜索识别,我们将headers修改。

在Python中使用requests库爬取数据时返回为空如何解决

输出有个小插曲,网页内容很多,我是想将前500个字符输出,第一次格式错了

import requestsheaders = {  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',}r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)r.status_coder.text

接着我们对需要的内容进行爬取,用(.find)方法找到我们内容位置,用(.children)下行遍历的方法对内容进行爬取,用(isinstance)方法对内容进行筛选:

import requestsfrom bs4 import BeautifulSoupimport bs4headers = {  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',}r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)r.status_coder.encoding = r.apparent_encodingsoup = BeautifulSoup(r.text, "html.parser")for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')print([tds[0].string, tds[1].string, tds[2].string])

得到结果如下:

在Python中使用requests库爬取数据时返回为空如何解决

修改输出的数目,我们用Clist列表来存取所有城市的排名,将前20个输出代码如下:

import requestsfrom bs4 import BeautifulSoupimport bs4Clist = list() #存所有城市的列表headers = {  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',}r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)r.encoding = r.apparent_encoding #将html的编码解码为utf-8格式soup = BeautifulSoup(r.text, "html.parser") #重新排版for tr in soup.find('tbody').children:   #将tbody标签的子列全部读取if isinstance(tr, bs4.element.Tag):  #筛选tb列表,将有内容的筛选出啦  tds = tr('td')  Clist.append([tds[0].string, tds[1].string, tds[2].string])for i in range(21):  print(Clist[i])

最终结果:

在Python中使用requests库爬取数据时返回为空如何解决

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网行业资讯频道,感谢您对编程网的支持。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯