首先 我们要在 pom.xml 中注入Jsoup
这是一个简单的java爬虫框架
<dependency> <groupId>org.jsoupgroupId> <artifactId>jsoupartifactId> <version>1.14.1version>dependency>
然后这里我们直接用main吧 做简单一点
我们创建一个类 叫 WebCrawler
参考代码如下
import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import java.io.IOException;public class WebCrawler { public static void main(String[] args) { String url = "https://www.baidu.com/?tn=48021271_25_hao_pg"; // 要爬取的网页URL try { Document doc = Jsoup.connect(url).get(); // 通过Jsoup连接并获取网页内容 Elements links = doc.select("a[href]"); // 选择所有带有href属性的元素 for (Element link : links) { String linkText = link.text(); // 获取链接文本 String linkHref = link.attr("href"); // 获取链接URL System.out.println(linkText + ": " + linkHref); } } catch (IOException e) { e.printStackTrace(); } }}
这里 我直接设置为了 百度的首页 因为这个网站每天会有无数用户访问 也不怕我们爬一爬
然后 我们右键运行代码
可以看到这些内容基本也都拿下来了
来源地址:https://blog.csdn.net/weixin_45966674/article/details/133160220