Python怎么爬取csnd文章并转为PDF文件-编程学习网

今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

1.导入模块

import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit

2.创建文件夹

filename = 'pdf\\' # 文件名字filename_1 = 'html\\'if not os.path.exists(filename): #如果没有这个文件夹的话    os.mkdir(filename) # 自动创建一下这个文件夹if not os.path.exists(filename_1): #如果没有这个文件夹的话    os.mkdir(filename_1) # 自动创建一下这个文件夹

3.发送请求

for page in range(1, 11):    print(f'=================正在爬取第{page}页数据内容=================')    url = f'https://blog.csdn.net/qdPython/article/list/{page}'    # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据    # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据    # headers 请求头 就是把python代码伪装成浏览器进行请求    # headers参数字段 是可以在开发者工具里面进行查询 复制    # 并不是所有的参数字段都是需要的    # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面)    # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容)    # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据)    # 根据不同的网站内容 具体情况 具体分析    headers = {        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'    }    # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的    # 搜索 / 登录 /查询 这样是post请求    response = requests.get(url=url, headers=headers)

4.数据解析

# 需要把获取到的html字符串数据转成 selector 解析对象selector = parsel.Selector(response.text)# getall 返回的是列表href = selector.css('.article-list a::attr(href)').getall()

5.如果把列表里面每一个元素都提取出来

for index in href:    # 发送请求 对于文章详情页url地址发送请求    response_1 = requests.get(url=index, headers=headers)    selector_1 = parsel.Selector(response_1.text)    title = selector_1.css('#articleContentId::text').get()    new_title = change_title(title)    content_views = selector_1.css('#content_views').get()    html_content = html_str.format(article=content_views)    html_path = filename_1 + new_title + '.html'    pdf_path = filename + new_title + '.pdf'    with open(html_path, mode='w', encoding='utf-8') as f:        f.write(html_content)        print('正在保存: ', title)

6.替换特殊字符

def change_title(name):    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')    new_name = re.sub(mode, '_', name)    return new_name

运行代码，即可下载HTML文件：

Python怎么爬取csnd文章并转为PDF文件

7.转换成PDF文件

config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_path, pdf_path, configuration=config)

Python怎么爬取csnd文章并转为PDF文件

看完上述内容，你们对Python怎么爬取csnd文章并转为PDF文件有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网行业资讯频道，感谢大家的支持。

文章详情

Python怎么爬取csnd文章并转为PDF文件

1.导入模块

2.创建文件夹

3.发送请求

4.数据解析

5.如果把列表里面每一个元素都提取出来

6.替换特殊字符

7.转换成PDF文件

软考中级精品资料免费领

相关文章

猜你喜欢

Python爬取csnd文章并转为PDF文件

Python怎么爬取csnd文章并转为PDF文件

python爬取微信公众号文章图片并转为PDF

Python中怎么将Office文件转为PDF

Python怎么将Office文件转PDF

Python怎么将pdf转为图片？Python如何实现pdf文件转图片

怎么用Python爬取7日热门的文章

Python中怎么PDF文件提取数据

php怎么将Excel文件转为PDF格式

python怎么将读取文件转为字典

php怎么读取txt文件并将其转为数组

Python读取hdf文件并转化为tiff格式输出

php怎么读取远程xml文件并转化为数组

php怎么读取远程xml文件并转化为数组

python怎么读取文件并输出

怎么用python把json文件转换为csv文件

python的PyPDF2怎么实现pdf文件切割和合并

python怎么读取mat文件并画图

python二进制文件怎么转换为文本

python怎么读取文件并计算平均值

文章详情

Python怎么爬取csnd文章并转为PDF文件

1.导入模块

2.创建文件夹

3.发送请求

4.数据解析

5.如果把列表里面每一个元素 都提取出来

6.替换特殊字符

7.转换成PDF文件

软考中级精品资料免费领

相关文章

猜你喜欢

Python爬取csnd文章并转为PDF文件

Python怎么爬取csnd文章并转为PDF文件

python爬取微信公众号文章图片并转为PDF

Python中怎么将Office文件转为PDF

Python怎么将Office文件转PDF

Python怎么将pdf转为图片？Python如何实现pdf文件转图片

怎么用Python爬取7日热门的文章

Python中怎么PDF文件提取数据

php怎么将Excel文件转为PDF格式

python怎么将读取文件转为字典

php怎么读取txt文件并将其转为数组

Python读取hdf文件并转化为tiff格式输出

php怎么读取远程xml文件并转化为数组

php怎么读取远程xml文件并转化为数组

python怎么读取文件并输出

怎么用python把json文件转换为csv文件

python的​PyPDF2怎么实现pdf文件切割和合并

python怎么读取mat文件并画图

python二进制文件怎么转换为文本

python怎么读取文件并计算平均值

5.如果把列表里面每一个元素都提取出来

python的PyPDF2怎么实现pdf文件切割和合并