Python爬虫如何爬取网页中所有的url-编程学习网

这篇文章主要介绍Python爬虫如何爬取网页中所有的url，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

python可以做什么

Python是一种编程语言，内置了许多有效的工具，Python几乎无所不能，该语言通俗易懂、容易入门、功能强大，在许多领域中都有广泛的应用，例如最热门的大数据分析，人工智能，Web开发等。

在使用python爬虫进行网络页面爬取的过程中，第一步肯定是要爬取url，若是面对网页中很多url，，又该如何爬取所以url呢？本文介绍Python爬虫爬取网页中所有的url的三种实现方法：1、使用BeautifulSoup快速提取所有url；2、使用Scrapy框架递归调用parse；3、在get_next_url()函数中调用自身，递归循环爬取所有url。

方法一：使用BeautifulSoup快速提取所有url

BeautifulSoup是一种可以从html和xml中快速提取内容的python库

    def getAllUrl(self,url):        import urllib.request        from bs4 import BeautifulSoup        html = urllib.request.urlopen(url).read().decode("utf-8")        soup = BeautifulSoup(html, features='html.parser')        tags = soup.find_all('a')        for tag in tags:            print(str(tag.get('href')).strip())

方法二：使用Scrapy框架递归调用parse

递归调用parse直到每个页面爬取完

class QiubaiSpider(scrapy.Spider):    name = 'qiubai'    # allowed_domains = ['www.qiushibaike.com/text']    start_urls = ['https://www.qiushibaike.com/text/']    # 设计一个url模板    url = 'https://www.qiushibaike.com/text/page/%d/'    pageNum = 1    def parse(self, response):        div_list = response.xpath("//div[@id='content-left']/div")        for div in div_list:            ....            # 将item提交给管道            yield item        # 多url， 请求的手动发送        if self.pageNum <= 13:  # 控制！否则无限递归了。。            self.pageNum += 1            print('爬第：%d 页' % self.pageNum)            new_url = self.url % self.pageNum            # callback 回调函数，页面进行解析            yield scrapy.Request(url=new_url, callback=self.parse)

方法三：在get_next_url()函数中调用自身，递归循环爬取所有url

#!/usr/bin/env python # -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoup as Bs4head_url = "http://www.xxx.com.cn"headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)     Chrome/72.0.3626.121 Safari/537.36"}def get_first_url():    list_href = []    reaponse = requests.get(head_url, headers=headers)    soup = Bs4(reaponse.text, "lxml")    urls_li = soup.select("#mainmenu_top > div > div > ul > li")    for url_li in urls_li:        urls = url_li.select("a")        for url in urls:            url_href = url.get("href")            list_href.append(head_url+url_href)            out_url = list(set(list_href))    return out_urldef get_next_url(urllist):    url_list = []    for url in urllist:        response = requests.get(url,headers=headers)        soup = Bs4(response.text,"lxml")        urls = soup.find_all("a")        if urls:            for url2 in urls:                url2_1 = url2.get("href")                if url2_1:                    if url2_1[0] == "/":                        url2_1 = head_url + url2_1                        url_list.append(url2_1)                        if url2_1[0:24] == "http://www.xxx.com.cn":                            url2_1 = url2_1                            url_list.append(url2_1)                        else:                            pass                    else:                        pass                else:                    pass        else:            pass    url_list2 = set(url_list)    for url_ in url_list2:        res = requests.get(url_)        if res.status_code ==200:            print(url_)    print(len(url_list2))    get_next_url(url_list2)if __name__ == "__main__":    urllist = get_first_url()    get_next_url(urllist)

以上是“Python爬虫如何爬取网页中所有的url”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注编程网行业资讯频道！

文章详情

Python爬虫如何爬取网页中所有的url

python可以做什么

软考中级精品资料免费领

相关文章

猜你喜欢

Python爬虫如何爬取网页中所有的url

python爬虫中如何爬取网页新闻内容

Python 爬虫：如何用 BeautifulSoup 爬取网页数据

Python 爬虫爬取指定博客的所有文章

python爬虫中如何爬取新闻

如何用Python爬虫爬取美剧网站

Python爬虫后如何获取重定向url

如何使用Python爬虫爬取网站图片

如何利用Python爬虫爬取网站音乐

python怎么爬取同一网站所有网页

Python爬取网页的所有内外链的代码

python如何爬取网页图片

Python爬虫：如何快速掌握Python爬虫核心技术，批量爬取网络图片

Python Requests爬虫中如何求取关键词页面

Python如何写出最简单的网页爬虫

如何用python爬取网页数据

Python网络爬虫之如何获取网络数据

Python爬虫实现网页信息抓取功能示例【URL与正则模块】

python爬取网页如何创建文件

如何使用python网络爬虫基于selenium爬取斗鱼直播信息