这篇文章主要介绍“什么是用户代理IP池”,在日常操作中,相信很多人在什么是用户代理IP池问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”什么是用户代理IP池”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
说明
用户代理池是将不同的用户代理组成一个池,然后随机调用。
每次访问代表使用不同的浏览器。
配置在爬虫的程序中,当一个IP失效后,立即再用另一个IP。
实例
import urllib.requestimport randomimport urllib.error#自定义UA_IP类,用来随机得到def UA_IP(thisUrl): #构建用户代理池 ua_pool = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0' ] #构建ip代理池 ip_pool = [ '139.196.196.74', '112.124.47.21', '61.129.70.109', '221.229.166.55' ] thisUA = random.choice(ua_pool) #从用户代理池中随机选择一个用户代理 thisIP = random.choice(ip_pool) #从IP代理池中随机选择一个IP代理 headers = ('User-Agent', thisUA) #构造报头 #将IP格式化 proxy = urllib.request.ProxyHandler({'http': thisIP}) #装入IP代理 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler) #装入代理 opener.addheaders = [headers] #将opener设置为全局 urllib.request.install_opener(opener) #从网页爬取信息 data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore') return data #网页池,后面从网页池中选择一个进行该网页信息的爬取urls = [ 'https://mp.csdn.net/mdeditor/88323361#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88081609#'] #爬取1000次for i in range(0, 1000): try: thisUrl = random.choice(urls) data = UA_IP(thisUrl) print(len(data)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print(e.code) if hasattr(e, 'reason'): print(e.reason)
到此,关于“什么是用户代理IP池”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!