这篇“Java目标网站反爬虫怎么解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java目标网站反爬虫怎么解决”文章吧。
一 前言
在网站的采集过程中,每天都要面对网站的各种反爬虫技术,然而我们要想拿到数据,就需要针对性的制定很多方法来突破他们的反爬。例如,在采集数据过程中目标网站能识别出你的UserAgent,那你在采集的时候就需要添加很多的UserAgent来进行伪造,躲避它们的识别。有些网站能通过cookie来进行识别,所以cookie也是需要加上。它限制你的ip请求次数,那么你就需要限制你的ip速度或者换ip。更严的是会用验证码来识别你是人还是机器,那么你就需要模拟人的行为来进行突破。
就以我现在采集的项目为例,有个项目是需要采集大众点评的数据,相信大家都知道这个网站很难采集的,ip的请求次数限制的很严,但是我又需要很多的数据,如果是通过降低我爬虫的速度那肯定是不行的,这样的话数据不知道要猴年马月才能采集完。所以我只能通过不停的切换动态ip来应对。那我需要在很短的时间内采集大量的数据,不能把时间用在管理ip池,验证他们的可用性上,所以我需要可以在java中可以实现自动切ip,这样我才可以把时间用在数据的采集上。
在网上找了很多的代理,大多都是提供的api模式的,需要我自己管理ip池,我时间紧数据量又大,这个显然不适合。找到了几家提供动态转发模式的,也测试了几家,可能是因为这个网站的特殊性也可能是因为他们的代理不稳定效果都不是很理想。
二 接入文档范例
JAVA
HttpClient3.1
import org.apache.commons.httpclient.Credentials;import org.apache.commons.httpclient.HostConfiguration;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.HttpMethod;import org.apache.commons.httpclient.HttpStatus;import org.apache.commons.httpclient.UsernamePasswordCredentials;import org.apache.commons.httpclient.auth.AuthScope;import org.apache.commons.httpclient.methods.GetMethod;
import java.io.IOException;
public class Main {
private static final String PROXY_HOST = "t.16yun.cn";
private static final int PROXY_PORT = 31111;
public static void main(String[] args) {
HttpClient client = new HttpClient();
HttpMethod method = new GetMethod("https://httpbin.org/ip");
HostConfiguration config = client.getHostConfiguration();
config.setProxy(PROXY_HOST, PROXY_PORT);
client.getParams().setAuthenticationPreemptive(true);
String username = "16ABCCKJ";
String password = "712323";
Credentials credentials = new UsernamePasswordCredentials(username, password);
AuthScope authScope = new AuthScope(PROXY_HOST, PROXY_PORT);
client.getState().setProxyCredentials(authScope, credentials);
try {
client.executeMethod(method);
if (method.getStatusCode() == HttpStatus.SC_OK) {
String response = method.getResponseBodyAsString();
System.out.println("Response = " + response);
}
} catch (IOException e) {
e.printStackTrace();
} finally {
method.releaseConnection();
}
}}
这个demo是直接复制使用的,里面的代理的配置部分是购买的代理信息里面提供的,对应的配置进去就可以运行。
注意事项
动态转发是按照每秒的请求量进行的,这个需要根据自己的数据量对应的进行购买使用。还有就是他们有提供标准和加强版,好像是ip池大小不一样,这个需要具体的向客服了解。根据自己的实际需求进行使用。
以上就是关于“Java目标网站反爬虫怎么解决”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网行业资讯频道。