文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python学习笔记__12.11章 H

2023-01-31 05:59

关注

1、概览

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

Python提供了HTMLParser来非常方便地解析HTML。而且,HTMLParse类里的函数名是不能改的

 

from html.parser import HTMLParser

from html.entities import name2codepoint

 

class MyHTMLParser(HTMLParser):

# 处理开始标签,比如<div>;这里的attrs获取到的是属性列表,属性以元组的方式展示

# <time datetime="2018">,tag标签是time。args是[["datetime","2018"]]

    def handle_starttag(self, tag, attrs):

        print('<%s>' % tag)

 

    def handle_endtag(self, tag): # 处理结束标签,比如</div>

        print('</%s>' % tag)

 

    def handle_startendtag(self, tag, attrs):  # 处理自己结束的标签,如<img />

        print('<%s/>' % tag)

 

    def handle_data(self, data): #处理数据,标签之间的文本

        print(data)

 

    def handle_comment(self, data): # 打印注释

        print('<!--', data, '-->')

 

    def handle_entityref(self, name): # 打印<body>中,没有被标签圈起来的内容 HTML tutorial...

        print('&%s;' % name)

 

    def handle_charref(self, name): # 打印特殊符号  --》 ?

        print('&#%s;' % name)

 

parser = MyHTMLParser()

# feed(str),为解释器提供文本。

parser.feed('''<html>

<head></head>

<body>

<!-- test html parser -->

    <p>Some <a href=\"#\">html</a> HTML tutorial...<br>END</p>

</body></html>''')

2、扩展文档

Python爬虫常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)

 

3、例子

1、找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

 

方法一:小范围匹配

from html.parser import HTMLParser

from html.entities import name2codepoint

from urllib import request

import re

 

 

class MyHTMLParser(HTMLParser):

    a_t1 = False # 用于匹配状态的判断

    a_t2 = False

    a_t3 = False

    def __init__(self): # 初始化实例

        HTMLParser.__init__(self)

        self.information = []

        self.information_all = {}

 

 

    def handle_starttag(self, tag, attrs): # attrs是list['list']的存储方式

        def _attr(attrlist, attrname): # 接受的参数都是 attrs,和‘class’

            for attr in attrlist:  # attrs 是[[],[]]类的,那attr就是里面的list

                if attr[0] == attrname: #如果匹配,返回attr[1]

                    return attr[1]

            return None

 

        if tag=="time" : # 如果条件对上了,修改匹配状态为True

            self.a_t1 = True

        elif tag=="span" and _attr(attrs, 'class')=="event-location":

            self.a_t2 = True

        elif tag=="h3" and _attr(attrs, 'class')=="event-title":

            self.a_t3 = True

 

 

    def handle_data(self, data):

        if self.a_t1 is True:

            if re.match(r'^\s\d{4}', data): # 取data数据

                self.information.append(dict(year=data))

            else:

                self.information.append(dict(day=data))

        elif self.a_t2 is True:

            self.information.append(dict(event_location=data)) 取地址数据

        elif self.a_t3 is True:

            self.information.append(dict(event_title=data)) # 取数据

 

 

    def handle_endtag(self, tag): # 将匹配状态重置,为后续继续检索做准备

        if tag == "time":

            self.a_t1 = False

        elif tag =="span":

            self.a_t2 = False

        elif tag == "h3":

            self.a_t3 = False

 

 

 

def parseHTML(html_str):

    parser = MyHTMLParser()

    parser.feed(html_str) #接受HTML并解析

    for i, val in enumerate(parser.information): #enumerate将list变为索引-元素对。遍历打印value

        i +=  1

        print(val)

        if i%4==0:

 

            print('--------------------------------------------')

 

 

URL = 'https://www.python.org/events/python-events/'

with request.urlopen(URL, timeout=4) as f:  # 收集页面信息

    data = f.read()

 

parseHTML(data.decode('utf-8')) #将收到的信息解码,并传给parseHTML()调用

 

方法二:大范围匹配

from html.parser import HTMLParser

from urllib import request

import re

 

class MyHTMLParser(HTMLParser):

    flag = 0

    res = []

    is_get_data = 0

 

    def handle_starttag(self, tag, attrs):

        # 首先找到包裹事件的元素

        if tag == 'ul':

            for attr in attrs:

                if re.match(r'list-recent-events', attr[1]):

                    self.flag = 1

 

        # 处理包裹事件名称的a元素

        if tag == 'a' and self.flag == 1:

            self.is_get_data = 'title'

 

        # 处理时间的time元素

        if tag == 'time' and self.flag == 1:

            self.is_get_data = 'time'

 

        # 处理包裹地点的time元素

        if tag == 'span' and self.flag == 1:

            self.is_get_data = 'addr'

 

    def handle_endtag(self, tag):

        if self.flag == 1 and tag == 'ul':

            self.flag = 0

 

    def handle_data(self, data):

        if self.is_get_data and self.flag == 1:

            if self.is_get_data == 'title':

                #获得title,即会议名时,给res添加一个新dict:res 由[] 变为 [{'title':'PyCascades 2018'}],此时len(self.res)==1

                self.res.append({self.is_get_data: data})

            else:

            # 获得addr,time这样的其它属性时,相当于res[0][time]=data。

            # 这是将time=data键值对加到了此前的那个字典里,现在len(self.res)依然==1

                self.res[len(self.res) - 1][self.is_get_data] = data

            self.is_get_data = None

 

 

parser = MyHTMLParser()

 

with request.urlopen('https://www.python.org/events/python-events/') as f:

    data = f.read().decode('utf-8')

 

parser.feed(data)

for item in MyHTMLParser.res:

    print('---------------')

    for k,v in item.items():

        print("%s : %s" % (k,v))

 


阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯