文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

node网络爬虫实例了解下?

2023-01-31 08:20

关注

今天给大家分享的是node爬虫,写得不好的大家多关照,指出

背景交代,以下写的demo都是参照《python3网络爬虫开发实战》用node实现的,所以demo的具体思路什么的,大家可以去看书上的介绍,感兴趣的,可以去了解一波。

  • [x] 3.4 猫眼电影抓取

    猫眼电影抓取,没什么难点,非常简单的一个实例。唯一要注意的地方就是正则吧(当然也可以用cheerio库来实现更简单,主要是为了实践下不同的方式)。因为python3有很多现成的方法,所以当用node去写的时候,可能要改变一下,具体的可以看源码
let re = /<dd>(?:\s.*?)*board-index.*?>(\d+)<\/i>(?:\s.*?)*data-src="(.*?)"(?:\s.*?)*name"><a.*?>(.*?)<\/a><\/p>\s*?<p class="star">\s*?(.*?)\s*?<\/p>(?:\s.*?)*releasetime">(.*?)<\/p>(?:\s.*?)*integer">(.*?)<\/i>.*?fraction">(.*?)<\/i>/g
  • [x] 6.4 今日头条Ajax街拍图片抓取
// 主要是有一个疑问,下面这段代码主要是判断文件存不存在,如果不存在的话抛异常再写入文件,但是总感觉这种处理方式有问题,希望能找到更合理的方法
    try {
      fs.accessSync(file_path)
      console.warning('Already Downloaded', file_path)
    } catch (error) {
      response.data.pipe(fs.createWriteStream(file_path))
    }
  • [x] 7.4 淘宝商品

    这里主要介绍的就是puppeteer是 Google Chrome 团队官方的无界面(Headless)Chrome 工具, 通过puppeteer我们很容易的模拟用户的操作
  • [x] 8 图片验证码识别

    这里主要注意的就是node-tesseract库和gm,由于之前一开始用的是tesseract.js库,一直报错可以看下这两个问题issues1和issues2,后来改成node-tesseract就好了,我感觉也是因为墙的原因吧或者是配置的问题
// 可能把路径指向本地就好了,具体的没测试,后面再找找问题看
window.Tesseract = Tesseract.create({
    workerPath: '/path/to/worker.js',
    langPath: 'https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/',
    corePath: 'https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js',
})

后面还会更新其他的爬虫demo,希望本文对你有帮助github地址

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     801人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     348人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     311人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     432人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     220人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯