文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python爬取小视频

2023-01-31 06:57

关注

python爬取小视频记录

学习python简单爬虫小程序,记录代码和学习过程

环境信息

python 2.7.12

分析与步骤

  1. 要分析网站信息 http://www.budejie.com/video/
  2. 查看网页不同页面的信息:
    http://www.budejie.com/video/2
    http://www.budejie.com/video/3
    http://www.budejie.com/video/4
    可以知道,不同页面的URL规则,直接在后面输入数字查看跳转到不同页
  3. 分析视频内容特点
    如图:
    这里写图片描述
    查看网页代码:
    这里写图片描述
    通过这段代码,我们可以考虑分析。在python代码中用一段存放描述内容,一段存放视频所在的url
    对于每个url地址,通过urllib所提供的urlretrieve下载
  4. 具体代码实现
# -*- encoding:utf8 -*-
import re
import sys
import urllib2
import urllib
import os


reload(sys)
sys.setdefaultencoding("utf-8")

#a = 1
url_name = []
def get(pageindex):
    url = 'http://www.budejie.com/video/' + str(pageindex)
    # var1.set('已经获取到第%s页的视频视频'%(a))
    print url
    html = urllib.urlopen(url).read()
    url_reg = r'data-mp4="(.*?)"'
    url_items = re.findall(url_reg, html)
    name_reg = re.compile('<div class="j-r-list-c-desc".*?<a href=".*?>(.*?)</a>.*?</div>', re.S)
    name_items = re.findall(name_reg, html)
    for i, k in zip(name_items, url_items):
        url_name.append([i, k])

#传入文件名和video地址
def saveVideo(filename,videoUrl):
    print 'Saving : %s ...'%filename
    urllib.urlretrieve(videoUrl,'D:\\video\\%s.mp4'%filename)


####main exec ####
for pageindex in range(1,3):
    get(pageindex)

for index,item in enumerate(url_name):
    saveVideo(index,item[1])
阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯