在Python中使用代理IP进行爬虫需要使用第三方库,比如requests库。以下是使用代理IP的正确步骤:
1. 导入requests库和random库(用于随机选择代理IP):
```python
import requests
import random
```
2. 定义一个函数来获取代理IP列表。你可以从免费代理IP网站上获取代理IP,然后将其存储在一个列表中。这些代理IP可能会失效,所以你可能需要定期更新列表。
```python
def get_proxy_list():
proxy_list = [
'http://ip1:port1',
'http://ip2:port2',
'http://ip3:port3',
# ...
]
return proxy_list
```
3. 定义一个函数来随机选择一个代理IP:
```python
def get_random_proxy(proxy_list):
proxy = random.choice(proxy_list)
return {'http': proxy}
```
4. 使用requests库发送请求时,使用选中的代理IP:
```python
proxy_list = get_proxy_list()
proxy = get_random_proxy(proxy_list)
url = 'http://example.com'
response = requests.get(url, proxies=proxy)
```
这样,requests库就会使用选中的代理IP来发送请求。请注意,有些代理IP可能不适用于所有网站,所以你可能需要根据实际情况选择不同的代理IP来发送请求。
另外,如果你在使用代理IP时遇到了问题,比如请求超时或被网站拒绝访问,你可以尝试更换代理IP或使用其他方式来解决这些问题。