urllib.request库 是 Python3 自带的模块(不需要下载,导入即可使用)
python 自带的模块库文件都是在C:\Python\Lib目录下(C:\Python是我Python的安装目录),python第三方模块库都是在C:\Python\Lib\site-packages 下。
urllib.request库在windows下的路径(C:\Python\Lib\urllib)。
import urllib.request # 导入urllib.request 库
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto") # 向指定的url发送请求,并返回服务器响应的类文件对象。urlopen方法支持重定向
# 服务器返回的类文件对象支持Python文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()
print(html) # 打印响应的内容
注:urllib.request 里的 urlopen()不支持构造HTTP请求,不能给编写的请求添加head,无法模拟真实的浏览器发送请求。
python的“User-agent”默认的是client_version,而client_version = "Python-urllib/%s" % version。
urllib.request库的urlopen()方法默认的“User-agent”是本机Python的版本(User-agent:Python-urllib/3.4),对于服务器而言,一下就能识别出这是爬虫。
urlopen()的参数就是一个url地址;但是如果需要执行更复杂的操作,比如增加HTTP报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。
import urllib.request # url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request("https://blog.51cto.com/alun51cto") # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)
html = response.read()
print(html)
运行结果:跟第一个代码是一样。
Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数:
data:如果是GET请求,data(默认空),如果是POST请求,需要加上data参数,伴随 url 提交的数据。
headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。
通过抓包可以抓到https://blog.51cto.com/alun51cto 请求的head信息
【Host】:主域 (发请求时,可以不写)
【Connection: keep-alive】:保持登录后的长连接
【User-Agent】:最重要的参数
【Accept】:接受数据的格式,例如:text文本、json等
【Accept-Encoding】:数据的压缩方式 (爬虫不是服务器,没有解压方法,不能写)
【Accept-Language】:支持的语言 (可以不写)
【Cookie】:缓存,Cookie在爬虫里主要获取登录后的状态,跟登录相关的可以用Cookie处理,如果只是获取一个静态页面的数据,就不需要用Cookie。
web项目通过都是通过浏览器去访问,要想真实模拟一个用户用浏览器去访问web项目,在发送请求的时候,会有不同的User-Agent头。 urllib默认的User-Agent头为:Python-urllib/x.y,所以就需要我们在发request请求的时候添加一个head信息
import urllib.request
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto") # url 作为Request()方法的参数,构造并返回一个Request对象
response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)
import urllib.request
url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}
request = urllib.request.Request(url) # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("Connection", "keep-alive") #也可以通过调用request.add_header() 添加/修改一个特定的header
print(request.get_header(header_name="Connection")) # 也可以通过调用Request.get_header()来查看header信息
response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
#print(html)
import urllib.request
import random
url = "https://blog.51cto.com/alun51cto"
#定义一个User-Agent列表
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
"Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list) #随机抽取一个User-Agent值
request = urllib.request.Request(url) # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("User-Agent", user_agent) #通过调用Request.add_header() 添加一个特定的header
print(request.get_header("User-agent")) # 第一个字母大写,后面的全部小写
response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)