反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架
可以自定义的部分有:
请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式
储存方式(默认储存在f盘的html文件夹下),可以通过SaveUtil接口来自定义保存方式
需要保存的资源(默认为整个html页面)
筛选方式(默认所有url都符合要求),通过实现ResourseChooser接口来自定义需要保存的url和资源页面
实现的部分有:
html页面的下载方式,通过HttpClient实现html页面的下载
html页面的解析部分,通过jsoup实现html页面的解析
HtmlDownloader类,用于根据一个url下载一个html页面
package DownloadPackage;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.impl.client.CloseableHttpClient;import org.apache.http.impl.client.HttpClients;public class HtmlDownloader {RequestSet requestset = null;public HtmlDownloader(RequestSet requestset){this.requestset = requestset;}public String downloadhtml(String url){String html = null;//创建一个客户端//创建一个读取流从entity读取htmlBufferedReader reader = null;CloseableHttpClient httpclient = HttpClients.createDefault();HttpResponse response = null;try {response = httpclient.execute(requestset.getMethod(url));HttpEntity entity = response.getEntity();reader = new BufferedReader(new InputStreamReader(entity.getContent()));StringBuilder sb = new StringBuilder();while((html = reader.readLine()) != null){sb.append(html);}html = sb.toString();System.out.println("一个html页面获取成功");}catch (IOException e) {System.out.println(url+"连接失败");}finally{if(reader != null){try {reader.close();httpclient.close();}catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}}}return html;}}
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
软考中级精品资料免费领
- 历年真题答案解析
- 备考技巧名师总结
- 高频考点精准押题
- 资料下载
- 历年真题
193.9 KB下载数265
191.63 KB下载数245
143.91 KB下载数1148
183.71 KB下载数642
644.84 KB下载数2756
相关文章
发现更多好内容- Java OGNL 注入攻击的预防措施有哪些?(java ognl注入攻击如何预防 )
- Java 中如何实现 double 类型转 BigDecimal 类型?(java double转bigdecimal怎么实现)
- 在 Java 中如何利用 Map 构建表格?(java中怎么使用map做表格)
- Java 中的 exit 方法是否能够终止所有线程?(java exit是否能终止所有线程 )
- Java Supplier 接口如何有效避免空指针问题?(java supplier接口如何避免空指针)
- Java 中如何删除数组中的某个元素?(java怎么删除数组中的某个元素)
- 如何精准地区分 Java 中的重载方法?(如何区分Java中的重载方法)
- Java 中字符串赋值如何赋给另一个变量?(java字符串赋值怎么给另一个变量)
- Java 中静态初始化数组的具体方法有哪些?(Java静态初始化数组的方法是什么)
- Java 拦截器究竟有哪些作用呢?(java拦截器的作用是什么)
猜你喜欢
AI推送时光机分享一个简单的java爬虫框架
后端开发2023-05-30
简单好用的nodejs 爬虫框架分享
后端开发2022-06-04
使用Python实现简单的爬虫框架
后端开发2023-05-19
一个简单的python爬虫,爬取知乎
后端开发2023-06-02
Python的Scrapy爬虫框架简单学习笔记
后端开发2022-06-04
java Spring Boot2.7实现一个简单的爬虫功能
后端开发2023-10-03
Python爬虫基础之简单说一下scrapy的框架结构
后端开发2022-06-02
Python的爬虫框架scrapy用21行代码写一个爬虫
后端开发2022-06-04
上手简单,功能强大的Python爬虫框架——feapder
后端开发2022-06-02
如何使用Java编写一个简单的爬虫程序?
后端开发2023-05-29
java实现一个简单的网络爬虫代码示例
后端开发2023-05-30
node.js做一个简单的爬虫案例教程
后端开发2024-04-02
一个PHP实现的轻量级简单爬虫
后端开发2023-08-31
nodeJS实现简单网页爬虫功能的实例(分享)
后端开发2022-06-04
使用python实现一个简单的图片爬虫
后端开发2024-04-02
如何在Python中实现一个简单的爬虫程序
后端开发2023-10-22
怎么使用Java IO流和网络制作一个简单的图片爬虫
后端开发2023-07-05
如何用Python写一个简单的Web框架
后端开发2023-06-17
如何利用C++实现一个简单的网页爬虫程序?
后端开发2023-11-04
咦!没有更多了?去看看其它编程学习网 内容吧