Python：网页的抓取、过滤和保存-编程学习网

Python：网页的抓取、过滤和保存

环境：Python 2.7.3，win10

一、抓取

目的地是ZOL笑话大全
地址：http://xiaohua.zol.com.cn/new/2.html
网址的组成要灵活点，这个网站的地址后面是可变的，比如3.html、4.html
所以这样搞：url=”http://xiaohua.zol.com.cn/new/%d.html”%(page)
page是动态赋值的

导包：import urllib
Python的urllib和urllib2模块都是做请求URL相关操作的。
它们最显著的差异为:
urllib2可以接受一个Request对象，并以此可以来设置一个URL的headers，但是urllib只接收一个URL。
urllib模块可以提供进行urlencode的方法，该方法用于GET查询字符串的生成，urllib2的不具有这样的功能.
python 2.7.x提供了urllib与urllib2，鉴于上述异同两个库通常搭配使用。

抓取：urllib.urlopen(url).read()
因为这个网站不需要什么东西就可以爬取，所以就这么简单一句话，复杂点的请参考这个：http://blog.csdn.net/u013632854/article/details/52970775

urllib.urlopen(url)是打开一个url的方法，返回一个文件对象，然后可以进行类似文件对象的操作，通过read()方法读取内容

二、过滤
过滤就离不开正则表达式，这是一个谁也绕不开的恶梦
参考这个：http://www.ziqiangxuetang.com/python/python-reg-expressions.html）

这里分为两部分

先import re
re是负责正则表达式的

1、过滤

list=re.findall(r'<div class="summary-text">(.*?)</div>',html,re.I|re.M|re.S)

这个方法是查找字符串内所有匹配的内容，并以列表的形式返回
findall(正则表达式，要处理的字符串，可选内容)

描述
如下：
re.I
使匹配对大小写不敏感
re.L
做本地化识别（locale-aware）匹配
re.M
多行匹配，影响 ^ 和 $
re.S
使 . 匹配包括换行在内的所有字符
re.U
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X
该标志通过给予你更灵活的格式以便你将正则表达式写得更.decode

正则处理的方法二：

    #过滤
    #reg=r'<div class="summary-text">(.*?)</div>'
    #方法1，需要转换编码
    #re是python自带的处理正则表达式的包
    #获取pattern对象来处理字符串
    #pattern=re.compile(reg)
    #这个是查找此字符串中所有符合条件的内容并返回一个列表
    #list=pattern.findall(html)
    #for item in list:
    #网页是gbk的，查找到之后的内容也是gbk的，要解码
    #   print item.decode('gbk')
    #返回的内容为空，应该是匹配不成功，可以看下页面返回的是否与你匹配的一致
    #return pattern.findall(html)
    #转码的方式
    #print unicode(item,'gbk')
    #print pattern.findall(html.decode('gbk').encode('utf-8'))

2、替换

list[index]=re.sub(r'<p>(.*?)</p>',"",list[index])

因为技术关系，没能一次性过滤或者替换掉所有目标内容，唯有对数据进行多次处理，汗
此方法是替换掉匹配的内容，sub(正则表达式，要替换成什么内容，待处理的字符串)
要替换成什么内容这个我填的是空字符串

list=re.findall(r'<div class="summary-text">(.*?)</div>',html,re.I|re.M|re.S)
        #过滤
        for index in range(len(list)):
            list[index]=re.sub(r'<p>(.*?)</p>',"",list[index])
            list[index]=re.sub(r'<p>',"",list[index])
            list[index]=re.sub(r'</p>',"",list[index])
            list[index]=re.sub(r'\s*',"",list[index])+'\r'
            print list[index]
        return list

三、保存
也就两句话，打开一个文件，写进去

txtFile=open('PaChongFile.txt','w')
txtFile.writelines(list)

参考这个http://www.ziqiangxuetang.com/python/python-files-io.html

总体代码如下：

_author_='iamzhuwh'
#coding=utf-8

import urllib
import re

class PaChong:

    #初始化
    def __init__(self,tagetUrl):
        global txtFile
        self.tagetUrl=tagetUrl
        txtFile=open('PaChongFile.txt','w')

    #输入网址，返回内容列表
    def getHtmlContent(self,html):
        #爬取页面的指定内容
        list=re.findall(r'<div class="summary-text">(.*?)</div>',html,re.I|re.M|re.S)
        #过滤
        for index in range(len(list)):
            list[index]=re.sub(r'<p>(.*?)</p>',"",list[index])
            list[index]=re.sub(r'<p>',"",list[index])
            list[index]=re.sub(r'</p>',"",list[index])
            list[index]=re.sub(r'\s*',"",list[index])+'\r'
            print list[index]
        return list

    #获取
    def getHtml(self,url):
        return urllib.urlopen(url).read()

    #获取url
    def getHtmlUrl(self,html):
        reg='<div.*?class="summary-text">.*?</div>'
        reg_sub=r'<p></p>'
        reg_sub2=r'<p>.*?</p>'
        list=re.findall(reg,html,re.I|re.M|re.S)
        print ""

    def saveToFile(self,list):
        try:
            txtFile.writelines(list)
        except IOError as err:
            print('Error:'+str(err))
        #finally:
        #   txtFile.close()

    #url递归
    def urlRecursion(self,url):
        print '待续'

    def start(self,pageCount):
        page=0
        for index in range(pageCount):
            if index==0:continue
            page=index
            url="http://xiaohua.zol.com.cn/new/%d.html"%(page)
            self.saveToFile(self.getHtmlContent(self.getHtml(url)))

spider=PaChong(None)
spider.start(50)

文章详情

Python：网页的抓取、过滤和保存

软考中级精品资料免费领

相关文章

猜你喜欢

Python：网页的抓取、过滤和保存

python抓取网页中图片并保存到本地

python抓取网页内容并保存的方法是什么

网页抓取和网页爬取的区别

Python中怎么抓取并存储网页数据

Python3使用requests包抓取并保存网页源码的方法

python 抓取的网页默认是bytes

python抓取并保存html页面时乱码问题的解决方法

python爬取网页数据到保存到csv

python如何实现基本的抓取网页

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

手把手教你使用Python抓取并存储网页数据！

Phantomjs抓取渲染JS后的网页（Python代码）

python自动抓取网页的方法是什么

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

使用Python保存网页上的图片或者保存页面为截图

Python实现周期性抓取网页内容的方法

用Python轻松搞定日常网页数据抓取和自动化操作

python读取和保存mat文件的方法

Using Django with GAE Python 后台抓取多个网站的页面全文