Python爬虫Xpath定位数据的两种方法-编程学习网

方法一：直接右键，将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用，使用etree解析html网页

import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和css加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片，就把下面第二句话改第一句话，删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成（防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒，加载好了就立刻结束等待）
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

然后获取网页数据，这里表明哪怕后面出错了，仍然可以延续wb的位置继续控制浏览器

data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )

在这里插入图片描述

方法二：使用@制定标签属性，搜索指定位置

这样的好处就是，对于批量处理的网页，有的标签位置不在同一个地方，那么我们就是不使用全Xpath路径，而使用相对路径，用@制定某种属性的标签，下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是：从根部（//）查找 class值为 mainArea的Node.

所以，那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是，继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

到此这篇关于Python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关Python爬虫Xpath定位数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

Python爬虫Xpath定位数据的两种方法

方法一：直接右键，将文章路径复制下来点击Copy full Xpath

方法二：使用@制定标签属性，搜索指定位置

软考中级精品资料免费领

相关文章

猜你喜欢

Python爬虫Xpath定位数据的两种方法

Python爬虫的两套解析方法和四种爬虫实现

Python爬虫网页元素定位的方法

python爬虫爬取指定内容的解决方法

python爬虫获取数据的方法是什么

Python爬虫（1）一次性搞定Selenium(新版)8种find_element元素定位方式

python保存两位小数的多种方法汇总

python保留两位小数的3种方法实例

absolute定位css元素居中的两种方法

SpringBoot中定位切点的两种常用方法

Python保留指定位数的小数【5种方法】

Python股票数据定向爬虫是怎么样的

python中——requests爬虫【中文乱码】的3种解决方法

python怎么保留两位小数?几种方法总结！

PHP编写数据库爬虫程序的方法

Python爬虫数据的分类及json数据用法示例

MySQL 两种恢复数据的方法

python遍历数组的两种方法

爬虫解析提取数据的方法有哪些

python向json中追加数据的两种方法总结