如何使用python爬取知乎热榜Top50数据-编程学习网

1、导入第三方库


import urllib.request,urllib.error  #请求网页
from bs4 import BeautifulSoup  # 解析数据
import sqlite3  # 导入数据库
import re # 正则表达式
import time # 获取当前时间

2、程序的主函数


def main():
    # 声明爬取网页
    baseurl = "https://www.zhihu.com/hot"
    # 爬取网页
    datalist = getData(baseurl)
    #保存数据
    dbname = time.strftime("%Y-%m-%d", time.localtime()) # 
    dbpath = "zhihuTop50  " + dbname
    saveData(datalist,dbpath)

3、正则表达式匹配数据


#正则表达式
findlink = re.compile(r'<a class="css-hi1lih" href="(.*?)" rel="external nofollow"  rel="external nofollow" ') #问题链接
findid = re.compile(r'<div class="css-blkmyu">(.*?)</div>') #问题排名
findtitle = re.compile(r'<h1 class="css-3yucnr">(.*?)</h1>') #问题
findintroduce = re.compile(r'<div class="css-1o6sw4j">(.*?)</div>') #简要介绍
findscore = re.compile(r'<div class="css-1iqwfle">(.*?)</div>') #热门评分
findimg = re.compile(r'<img class="css-uw6cz9" src="(.*?)"/>') #文章配图

4、程序运行结果

在这里插入图片描述

5、程序源代码


import urllib.request,urllib.error
from bs4 import BeautifulSoup
import sqlite3
import re
import time

def main():
    # 声明爬取网页
    baseurl = "https://www.zhihu.com/hot"
    # 爬取网页
    datalist = getData(baseurl)
    #保存数据
    dbname = time.strftime("%Y-%m-%d", time.localtime())
    dbpath = "zhihuTop50  " + dbname
    saveData(datalist,dbpath)
    print()
#正则表达式
findlink = re.compile(r'<a class="css-hi1lih" href="(.*?)" rel="external nofollow"  rel="external nofollow" ') #问题链接
findid = re.compile(r'<div class="css-blkmyu">(.*?)</div>') #问题排名
findtitle = re.compile(r'<h1 class="css-3yucnr">(.*?)</h1>') #问题
findintroduce = re.compile(r'<div class="css-1o6sw4j">(.*?)</div>') #简要介绍
findscore = re.compile(r'<div class="css-1iqwfle">(.*?)</div>') #热门评分
findimg = re.compile(r'<img class="css-uw6cz9" src="(.*?)"/>') #文章配图

def getData(baseurl):
    datalist = []
    html = askURL(baseurl)
    # print(html)

    soup = BeautifulSoup(html,'html.parser')
    for item in soup.find_all('a',class_="css-hi1lih"):
        # print(item)
        data = []
        item = str(item)

        Id = re.findall(findid,item)
        if(len(Id) == 0):
            Id = re.findall(r'<div class="css-mm8qdi">(.*?)</div>',item)[0]
        else: Id = Id[0]
        data.append(Id)
        # print(Id)

        Link = re.findall(findlink,item)[0]
        data.append(Link)
        # print(Link)

        Title = re.findall(findtitle,item)[0]
        data.append(Title)
        # print(Title)

        Introduce = re.findall(findintroduce,item)
        if(len(Introduce) == 0):
            Introduce = " "
        else:Introduce = Introduce[0]
        data.append(Introduce)
        # print(Introduce)

        Score = re.findall(findscore,item)[0]
        data.append(Score)
        # print(Score)

        Img = re.findall(findimg,item)
        if (len(Img) == 0):
            Img = " "
        else: Img = Img[0]
        data.append(Img)
        # print(Img)
        datalist.append(data)
    return datalist
def askURL(baseurl):
    # 设置请求头
    head = {
        # "User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/80.0.3987.163Safari/537.36"
        "User-Agent": "Mozilla / 5.0(iPhone;CPUiPhoneOS13_2_3likeMacOSX) AppleWebKit / 605.1.15(KHTML, likeGecko) Version / 13.0.3Mobile / 15E148Safari / 604.1"
    }
    request = urllib.request.Request(baseurl, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html
    print()
def saveData(datalist,dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in datalist:
        sql = '''
        insert into Top50(
        id,info_link,title,introduce,score,img)
        values("%s","%s","%s","%s","%s","%s")'''%(data[0],data[1],data[2],data[3],data[4],data[5])
        print(sql)
        cur.execute(sql)
        conn.commit()
    cur.close()
    conn.close()
def init_db(dbpath):
    sql = '''
    create table Top50
    (
    id integer primary key autoincrement,
    info_link text,
    title text,
    introduce text,
    score text,
    img text
    )
    '''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()

if __name__ =="__main__":
    main()

到此这篇关于如何使用python爬取知乎热榜Top50数据的文章就介绍到这了,更多相关python 爬取知乎内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

如何使用python爬取知乎热榜Top50数据

目录

1、导入第三方库

2、程序的主函数

3、正则表达式匹配数据

4、程序运行结果

5、程序源代码

软考中级精品资料免费领

相关文章

猜你喜欢

如何使用python爬取知乎热榜Top50数据

如何用python爬取知乎话题？

如何使用node.js爬取知乎图片

如何使用python爬取B站排行榜Top100的视频数据

如何使用python爬取电商数据

使用python怎么爬取微博的热搜数据

如何用六步教会你使用python爬虫爬取数据

如何使用nodejs爬取数据

如何使用Python爬取各大高校数据

如何用python爬取网页数据

Python 爬虫：如何用 BeautifulSoup 爬取网页数据

如何用Python爬取天气数据

Python中如何使用requsets获取知乎最有价值的内容

教你如何使用Python快速爬取需要的数据

如何使用Python爬取历年高考数据并分析

如何使用PHP做异步爬取数据

python如何使用XPath解析数据爬取起点小说网数据

如何使用PHP蜘蛛爬虫框架来爬取数据

如何使用代理服务器爬取数据

如何用Python爬取马蜂窝的出行数据