文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

网络爬虫程序员被抓,我们还敢爬虫吗?细数那些Java爬虫技术

2024-12-24 22:13

关注

 最近,某大数据科技公司因为涉嫌非法抓取某招聘网站用户的简历信息,公司被查封,负责编写抓取程序的程序员也将面临坐牢。

事情的大概经过是这样的:

某大数据科技公司老板丢给一个小小的程序员一个网站,告诉他把这个网站的数据抓取下来,咱们做一做分析。这个小小的程序员就吭哧吭哧的写了一段抓取代码,测试了一下,程序没问题,可以正常的把这个网站的数据给抓取下来,然后就毫不犹豫的上线了。过了几天,这个小小的程序员发现抓取的速度有点慢啊,然后他就将1个线程改成10个线程,发布上线,开始抓取,程序跑的没毛病。

过了一段时间,网站主的老板发现最近网站访问量激增,并且还经常宕机。然后组织公司程序员排查系统问题,经过排查发现,系统某一个接口频繁访问,遂怀疑有人恶意攻击,于是就报案了。警察通过访问来源IP顺藤摸瓜,查到小小程序员所在的公司,把公司全员200人全部扣留调查,这名小小程序员由于负责抓取程序的编写,将面临坐牢。小小程序员一脸懵逼,我只负责老板交给我的任务,我犯什么法了?

看了这个新闻,程序员朋友还不赶快将你的爬虫程序下线,要不下一个抓的就是你,怕不怕?

爬虫技术对于大多数程序员来说一点不陌生,大多数程序员都干过爬虫的事情吧!我记得我刚毕业入职的第一家公司我就是负责爬虫的。主要爬取各大高校官网的新闻资讯信息,然后利用这些信息给高校做手机微官网。当然,我们是经过了大多数高校的默认的。

今天我们暂且不论爬虫是否违法,这个问题我们也论不清楚。国内现在这么多做大数据分析公司,他们可以提供各种数据分,他们的数据是从哪里来的?有几家是正当来源?恐怕大多都是爬来的。今天我们细数那些java爬虫技术。

一、Jsoup

的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。这也是我最早使用的爬虫技术。

二、HtmlUnit

HtmlUnit是一款java的无界面浏览器程序库。它可以模拟HTML文档,并提供相应的API,允许您调用页面,填写表单,点击链接等操作。它是一种模拟浏览器以用于测试目的的方法。使用HtmlUnit你就感觉你是在操作浏览器,他对于css和js都可以很好的支持。

三、Selenium

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。

Selenium我觉得是最好的爬虫工具了,因为它完全模拟浏览器。由程序掉起浏览器,模拟人的操作。关于Selenium在我的文章[Selenium利器!解放测试程序员的双手]有专门讲解。

最后,爬虫有风险,使用需谨慎。希望广大程序员朋友在使用爬虫技术的时候,要有数据隐私的意识。

以下内容来源网络:

如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。

除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯