文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

爬虫技术的类型有哪些

2024-04-02 19:55

关注

这篇文章主要讲解了“爬虫技术的类型有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“爬虫技术的类型有哪些”吧!

01 聚焦爬虫技术

聚焦网络爬虫(focused  crawler)也就是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性。

基于链接评价的爬行策略,主要是以Web页面作为半结构化文档,其中拥有很多结构信息可用于评价链接重要性。还有一个是利用Web结构来评价链接价值的方法,也就是HITS法,其通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。

而基于内容评价的爬行策略,主要是将与文本相似的计算法加以应用,提出Fish-Search算法,把用户输入查询词当作主题,在算法的进一步改进下,通过Shark-Search算法就能利用空间向量模型来计算页面和主题相关度大小。

面向主题爬虫,面向需求爬虫:会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。一个简单的聚焦爬虫使用方法的示例如下所示。

import urllib.request     # 爬虫专用的包urllib,不同版本的Python需要下载不同的爬虫专用包 import re     # 正则用来规律爬取 keyname=""     # 想要爬取的内容 key=urllib.request.quote(keyname)     # 需要将你输入的keyname解码,从而让计算机读懂 for i in range(0,5):   # (0,5)数字可以自己设置,是淘宝某产品的页数     url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180815&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i*44) # url后面加上你想爬取的网站名,然后你需要多开几个类似的网站以找到其规则 # data是你爬取到的网站所有的内容要解码要读取内容     pat='"pic_url":"//(.*?)"' # pat使用正则表达式从网页爬取图片 # 将你爬取到的内容放在一个列表里面     print(picturelist)     # 可以不打印,也可以打印下来看看     for j in range(0,len(picturelist)):         picture=picturelist[j]         pictureurl="http://"+picture         # 将列表里的内容遍历出来,并加上http://转到高清图片         file="E:/pycharm/vscode文件/图片/"+str(i)+str(j)+".jpg"         # 再把图片逐张编号,不然重复的名字将会被覆盖掉         urllib.request.urlretrieve(pictureurl,filename=file)         # 最后保存到文件夹

02 通用爬虫技术

通用爬虫技术(general purpose Web crawler)也就是全网爬虫。其实现过程如下。

第五,满足爬虫系统设置的停止条件时,停止爬取。在编写爬虫的时候,一般会设置相应的停止条件。如果没有设置停止条件,爬虫便会一直爬取下去,一直到无法获取新的URL地址为止,若设置了停止条件,爬虫则会在停止条件满足时停止爬取。详情请参见图2-5中的右下子图。

通用爬虫技术的应用有着不同的爬取策略,其中的广度优先策略以及深度优先策略都是比较关键的,如深度优先策略的实施是依照深度从低到高的顺序来访问下一级网页链接。

关于通用爬虫使用方法的示例如下。

''' 爬取京东商品信息:     请求url:https://www.jd.com/     提取商品信息:         1.商品详情页         2.商品名称         3.商品价格         4.评价人数         5.商品商家 ''' from selenium import webdriver    # 引入selenium中的webdriver from selenium.webdriver.common.keys import Keys import time  def get_good(driver):     try:          # 通过JS控制滚轮滑动获取所有商品信息         js_code = '''             window.scrollTo(0,5000);         '''         driver.execute_script(js_code)  # 执行js代码          # 等待数据加载         time.sleep(2)          # 查找所有商品div         # good_div = driver.find_element_by_id('J_goodsList')         good_list = driver.find_elements_by_class_name('gl-item')         n = 1         for good in good_list:             # 根据属性选择器查找             # 商品链接             good_url = good.find_element_by_css_selector(                 '.p-img a').get_attribute('href')              # 商品名称             good_name = good.find_element_by_css_selector(                 '.p-name em').text.replace("\n", "--")              # 商品价格             good_price = good.find_element_by_class_name(                 'p-price').text.replace("\n", ":")              # 评价人数             good_commit = good.find_element_by_class_name(                 'p-commit').text.replace("\n", " ")              good_content = f'''                         商品链接: {good_url}                         商品名称: {good_name}                         商品价格: {good_price}                         评价人数: {good_commit}                         \n                         '''             print(good_content)             with open('jd.txt', 'a', encoding='utf-8') as f:                 f.write(good_content)          next_tag = driver.find_element_by_class_name('pn-next')         next_tag.click()          time.sleep(2)          # 递归调用函数         get_good(driver)          time.sleep(10)      finally:         driver.close()   if __name__ == '__main__':      good_name = input('请输入爬取商品信息:').strip()      driver = webdriver.Chrome()     driver.implicitly_wait(10)     # 往京东主页发送请求     driver.get('https://www.jd.com/')      # 输入商品名称,并回车搜索     input_tag = driver.find_element_by_id('key')     input_tag.send_keys(good_name)     input_tag.send_keys(Keys.ENTER)     time.sleep(2)      get_good(driver)

03 增量爬虫技术

某些网站会定时在原有网页数据的基础上更新一批数据。例如某电影网站会实时更新一批最近热门的电影,小说网站会根据作者创作的进度实时更新最新的章节数据等。在遇到类似的场景时,我们便可以采用增量式爬虫。

增量爬虫技术(incremental Web crawler)就是通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新后的新数据。

关于如何进行增量式的爬取工作,以下给出三种检测重复数据的思路:

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区

  2. 在发送请求之前判断这个URL是否曾爬取过;

  3. 在解析内容后判断这部分内容是否曾爬取过;

  4. 写入存储介质时判断内容是否已存在于介质中。

不难发现,实现增量爬取的核心是去重。目前存在两种去重方法。

关于增量爬虫的使用方法示例如下所示。

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from redis import Redis from incrementPro.items import IncrementproItem class MovieSpider(CrawlSpider):     name = 'movie'     # allowed_domains = ['www.xxx.com']     start_urls = ['http://www.4567tv.tv/frim/index7-11.html']     rules = (         Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'), callback='parse_item', follow=True),     )     # 创建Redis链接对象     conn = Redis(host='127.0.0.1', port=6379)     def parse_item(self, response):         li_list = response.xpath('//li[@class="p1 m1"]')         for li in li_list:             # 获取详情页的url             detail_url = 'http://www.4567tv.tv' + li.xpath('./a/@href').extract_first()             # 将详情页的url存入Redis的set中             ex = self.conn.sadd('urls', detail_url)             if ex == 1:                 print('该url没有被爬取过,可以进行数据的爬取')                 yield scrapy.Request(url=detail_url, callback=self.parst_detail)             else:                 print('数据还没有更新,暂无新数据可爬取!')      # 解析详情页中的电影名称和类型,进行持久化存储     def parst_detail(self, response):         item = IncrementproItem()         item['name'] = response.xpath('//dt[@class="name"]/text()').extract_first()         item['kind'] = response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()         item['kind'] = ''.join(item['kind'])         yield it

管道文件:

from redis import Redis class IncrementproPipeline(object):     conn = None     def open_spider(self,spider):         self.conn = Redis(host='127.0.0.1',port=6379)     def process_item(self, item, spider):         dic = {             'name':item['name'],             'kind':item['kind']             }         print(dic)         self.conn.push('movieData',dic)             # 如果push不进去,那么dic变成str(dic)或者改变redis版本            pip install -U redis==2.10.6         return item

04 深层网络爬虫技术

在互联网中,网页按存在方式可以分为表层网页和深层网页两类。

所谓的表层网页,指的是不需要提交表单,使用静态的链接就能够到达的静态页面;而深层网页则隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词后才能够获取到的页面,深层网络爬虫(deep  Web crawler)最重要的部分即为表单填写部分。

在互联网中,深层网页的数量往往要比表层网页的数量多很多,故而,我们需要想办法爬取深层网页。

深层网络爬虫的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。

深层网络爬虫的表单填写有两种类型:

感谢各位的阅读,以上就是“爬虫技术的类型有哪些”的内容了,经过本文的学习后,相信大家对爬虫技术的类型有哪些这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯