文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python+Selenium实现短视频热点爬取

2024-04-02 19:55

关注

随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分。本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

1.selenium,作为浏览器端一个自动化测试工具,可以模拟用户操作浏览器的动作,就像是人自己操作浏览器一样。关于selenium的具体信息如下

2.requests,web请求对象,通过selenium获取到视频的url后,再通过requests库进行视频流的获取,然后保存成本地视频文件。

3.浏览器开发者工具,通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。

目标分析

在爬取视频之前,需要分析目标结构,本视频爬取分析可分为三步,具体如下所示:

1. 分析热榜目录

热榜目录是一个ul标签,每一个热榜对象一个li子标签,分别包含热度,等内容。点击链接可以进入具体视频播放页面,目标分析如下所示:

2.分析视频播放页面

视频在video标签中播放,短视频播放的真实地址,在video的source子标签中,且为了保证播放质量,video下有三个source,任取其一即可,如下所示:

3. 分析弹出框

在爬取过程中,经过弹出需要登录的窗口,需要及时关闭掉,否则可能会导致找不到页面元素,从而爬取不成功。如下所示:

核心代码

经过以上分析,就可以编写爬虫代码了,如下所示:

1. 遍历热点目录

通过获取页面上对应的信息,解析出热点视频的目录,如下所示:

self.__driver.get(self.__url)
self.close_popup_window()
# 4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
# 打开以后,根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):
    # 获取
    hots = self.__driver.find_elements(by=By.CLASS_NAME, value='BHgRhxNh')
    hot_infos = []
    index = 0
    for hot in hots:
        hot_info = {}
        a = hot.find_element(by=By.TAG_NAME, value='a')
        href = a.get_attribute("href")
        text = a.text
        hot_info['url'] = href
        hot_info['text'] = text
        if index > 0:
            div = hot.find_element(by=By.CLASS_NAME, value='GsuT_hjh')
            if div is not None:
                hot_value = div.find_element(by=By.TAG_NAME, value='span').text
                hot_info['value'] = hot_value
        hot_infos.append(hot_info)
        index = index + 1
    print(hot_infos)

2. 获取真实短视频url

打开单个热点视频的url,并解析真实短视频播放url,如下所示:

def open_video_html(self, url):
    """打开具体视频的页面"""
    self.__driver.get(url=url)
    time.sleep(1)
    self.close_popup_window()  # 关闭弹窗
    video = self.__driver.find_element(by=By.TAG_NAME, value='video')
    source = video.find_element(by=By.TAG_NAME, value='source')
    src = source.get_attribute('src')
    return src

3. 下载视频

获取真实的url后,即可进行下载,如下所示:

def download_video(self, url, video_name):
    """根据视频源地址进行下载"""
    if os.path.exists(video_name):
        # 如果已重新下载过,则不需要再次下载
        return
    else:
        with open(video_name, 'wb') as fp:
            fp.write(requests.get(url).content)

4. 关闭弹出的登录窗口

在爬取过程中,经常弹出需要登录的遮罩窗口,需要进行关闭,如下所示:

def close_popup_window(self):
    try:
        login = self.__driver.find_element(by=By.ID, value='login-pannel')
        if login is not None:
            login.find_element(by=By.CLASS_NAME, value='dy-account-close').click()
    except BaseException as e:
        pass
    try:
        login = self.__driver.find_element(by=By.CLASS_NAME, value='GaDkStRD')
        if login is not None:
            btns = login.find_elements(by=By.TAG_NAME, value='button')
            for btn in btns:
                if btn.text == '取消':
                    btn.click()
                    break
    except BaseException as e:
        pass

5. 保存日志

在爬取成功后,对爬取的短视频的相关内容进行保存,如下所示:

def save_data(self, hot_infos):
    """
    保存数据
    :param res_list: 保存的内容文件
    :return:
    """
    t = time.strftime("%Y-%m-%d", time.localtime())
    with open(f'logs[{t}].json', 'a', encoding='utf-8') as f:
        res_list_json = json.dumps(hot_infos, ensure_ascii=False)
        f.write(res_list_json)

示例截图

程序开发完成后,运行示例如下所示:

爬取的视频保存在download目录下,如下所示:

总结

 为什么会采用selenium进行本次短视频的爬取,而不直接采用requests库,原因如下:

由于以上两点原因,结合selenium的特点及优势,所以最终采用selenium进行此次爬虫的最佳选择。

以上就是Python+Selenium实现短视频热点爬取的详细内容,更多关于Python Selenium热点爬取的资料请关注编程网其它相关文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯