在爬虫代码采集过程中，通过etree.HTML直接将字符串实例转化为element对象。
import requestsfrom lxml import etreeres = requests.get("http://www.jsons.cn/zt/")html = res.textroot_element = etree.HTML(html)print(root_element)print(root_element.tag)

2、解析HTML网页

#解析HTML字符串from lxml import etreetext = '''            无羡
        20
        四川
    
'''# 开始初始化html = etree.HTML(text)  # 这里需要传入一个html形式的字符串print(html)print(type)# 将字符串序列化为html字符串result = etree.tostring(html).decode('utf-8')print(result)print(type(result))

3、读取并解析HTML文件

from lxml import etree# 将html文件进行读取html = etree.parse('1.html')# 将html内容序列化result = etree.tostring(html).decode('utf-8')print(result)print(type(result))html = etree.HTML(result)  # 这里需要传入一个html形式的字符串print(html)print(type)

三、lxml使用流程

1、导入模块

from lxml import etree

2、创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。
parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件，该方法可以自动修正 HTML 文本。

from lxml import etreehtml_str = '''             Python
         Java
         C语言中文网         
百度
         京东
     
'''html = etree.HTML(html_str)result = etree.tostring(html)print(result.decode('utf-8'))

四、lxml库数据提取

1、提取所有a标签内的文本信息

from lxml import etree# 创建解析对象parse_html=etree.HTML(html)# 书写xpath表达式,提取文本最终使用text()xpath_bds='//a/text()'# 提取文本数据，以列表形式输出r_list=parse_html.xpath(xpath_bds)# 打印数据列表print(r_list)

2、获取所有href的属性值

from lxml import etree# 创建解析对象parse_html=etree.HTML(html)# 书写xpath表达式,提取文本最终使用text()xpath_bds='//a/@href'# 提取文本数据，以列表形式输出r_list=parse_html.xpath(xpath_bds)# 打印数据列表print(r_list)

3、不匹配href=" www.biancheng.net/priduct"

from lxml import etree# 创建解析对象parse_html=etree.HTML(html)# 书写xpath表达式,提取文本最终使用text()xpath_bds='//a/@href'# 提取文本数据，以列表形式输出xpath_bds='//ul[@id="sitename"]/li/a/@href'# 打印数据列表print(r_list)

Python操作lxml库文章集合

Python操作lxml库（基础篇）

Python操作lxml库(Xpath篇)

来源地址：https://blog.csdn.net/m0_63794226/article/details/126360128

文章详情

Python操作lxml库（基础篇）

学习日记

一、lxml库概述

1、lxml库介绍

2、lxml库特点

3、lxml库的安装

二、基本使用

1、lxml.etree

2、解析HTML网页

3、读取并解析HTML文件

三、lxml使用流程

1、 导入模块

2、创建解析对象

四、lxml库数据提取

1、提取所有a标签内的文本信息

2、获取所有href的属性值

3、不匹配href=" www.biancheng.net/priduct"

Python操作lxml库文章集合

软考中级精品资料免费领

相关文章

猜你喜欢

Python操作lxml库（基础篇）

Python操作lxml库之基础使用篇

Python操作lxml库实战之Xpath篇

【MySQL】查询操作（基础篇）

mysql 日常操作 基础篇

Python基础之操作MySQL数据库

python基础操作---tuple

python基础操作---string

Python-selenium基础操作

Python基础篇-Python基础语法

数据库基础操作

python利用lxml库剩下操作svg图片

python之LIST基础操作

python 基础篇（一）

数据库(mysql)基础操作

【MySQL】基础实战篇(1)—数据库与数据表的操作

python之基础篇（四）

python之基础篇（一）

Python集合的基础操作

python基础-文件操作(10)

1、导入模块

mysql 日常操作基础篇