Python 爬取网页中JavaScri-编程学习网

当我们进行网页爬虫时，我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，我们必须经过渲染处理才能获得原始数据。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说，Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分，因此如果你已经安装QT和PyQT4库，那么你可以直接运行之。

1、环境准备

Linux：sudo apt-get install python-qt4

Windows：https://www.cnblogs.com/Jimc/p/9717238.html

2、使用

首先通过 Web kit 发送请求信息，然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从 HTML 数据中提取出有效的信息。这个过程需要一点时间。

import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *

class Render(QWebPage):  # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中
    def __init__(self,url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()
    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()

url = 'http://jandan.net/ooxx'
r = Render(url)
html = r.frame.toHtml()
print(html)

那么，后面的工作就是解析HTML代码了，这里不做讲解。

文章详情

Python 爬取网页中JavaScri

1、环境准备

2、使用

软考中级精品资料免费领

相关文章

猜你喜欢

Python 爬取网页中JavaScri

Python爬虫如何爬取网页中所有的url

python爬虫中如何爬取网页新闻内容

python如何爬取网页图片

python动态网页批量爬取

python爬虫爬取bilibili网页基本内容

使用 Python 爬取网页数据

python怎么爬取豆瓣网页

Python 爬虫：如何用 BeautifulSoup 爬取网页数据

如何用python爬取网页数据

python 爬取豆瓣网页的示例

python爬取网页的操作步骤

python爬虫爬取网页数据并解析数据

python爬虫入门实战之爬取网页图片

使用python爬取网页版QQ空间

Python 爬取网页图片详解流程

怎么使用python爬取网页图片

python怎么爬取搜索后的网页

python爬取网页如何创建文件

python 爬取51cto首页