python下的爬虫简介-编程学习网

今天看了一本书的介绍《python网络爬虫实战》，里面介绍了四种框架（or模块），我做了小结如下：

scrapy 基本常用的框架，只要根据固定模版，编写即可，自己主要编写解析的选择器，和解析出来的数据处理。特别适合静态页面的，比如新闻资讯等
beautiful soup 不是框架，是一个模块，不能像scrapy只是配置，scrapy侧重解析返回的html文件和处理解析出来的数据。bs需要完全从头到位自己编写，但是灵活度更高。
mechanize 模拟浏览器，可以实现交互，比如验证码输入等。
selenium 上面的功能对于js不能很好的支持，这个模块可以支持js，我个人喜欢用这个模块，因为它的使用方法跟我以前使用的微软平台下的webbrowser控件很相似。

对selenium，主要适用里面的selenium.Webdriver模块，它支持多种浏览器，比如chrome，i.e.，firefox，opera等，但是如果不用界面，则使用plantomjs，plantomjs是没有界面的，速度比chrome快，根据介绍，它用于页面自动化、网络监测、网页截屏、以及×××面测试等，所以在服务器模式下，没有界面，用plantomjs是最好的选择。现在plantomjs有mac版本的，可以去网站下载。记得用迅雷下载。下载好了，直接解压，将里面bin目录下的文件： cp phantomjs /usr/local/bin/ 。就可以在python使用了，只要import selenium就可以使用。使用selenium非常简单，基本上就是将你如何操作浏览器浏览网页的步骤代码化。

文章详情

python下的爬虫简介

软考中级精品资料免费领

相关文章

猜你喜欢

python下的爬虫简介

python - 爬虫简介

Python爬虫框架Scrapy简介

python爬虫框架feapder的使用简介

Python爬虫教程-01-爬虫介绍

Python简单爬虫

python爬虫-简单使用xpath下载

python爬虫xpath模块简介示例代码

Python爬虫教程-34-分布式爬虫介

Python 简单业务爬虫

python实现简单爬虫--爬图片

python简单爬虫笔记

Python爬虫必备之Xpath简介及实例讲解

一个简单的python爬虫,爬取知乎

python 简单的股票基金爬虫

Python制作简单的网页爬虫

简单实现python爬虫功能

python爬虫入门教程(非常详细),超级简单的Python爬虫教程

Python爬虫之requests库基本介绍

用Python编写简单的微博爬虫