文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎么使用python爬虫爬取二手房数据

2023-06-14 16:04

关注

这篇文章主要介绍怎么使用python爬虫爬取二手房数据,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

python的数据类型有哪些?

python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和float(浮点型)。2.字符串,分别是str类型和unicode类型。3.布尔型,Python布尔类型也是用于逻辑运算,有两个值:True(真)和False(假)。4.列表,列表是Python中使用最频繁的数据类型,集合中可以放任何数据类型。5. 元组,元组用”()”标识,内部元素用逗号隔开。6. 字典,字典是一种键值对的集合。7. 集合,集合是一个无序的、不重复的数据组合。

一、基本开发环境

Python 3.6

Pycharm

二、相关模块的使用

requests

parsel

csv

安装Python并添加到环境变量,pip安装需要的相关模块即可。

三、python爬虫爬取二手房数据过程

1、请求url地址接获取数据内容

url = 'https://cs.lianjia.com/ershoufang/'headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)     Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)print(response.text)

2、解析数据

相关的数据内容都包含在 li 标签里面。通过 parsel 解析库,进行解析提取数据就可以了。

for li in lis:    #     title = li.css('.title a::text').get()    if title:        # 地址        positionInfo = li.css('.positionInfo a::text').getall()        # 小区        community = positionInfo[0]        # 地名        address = positionInfo[1]        # 房子基本信息        houseInfo = li.css('.houseInfo::text').get()        # 房价        Price = li.css('.totalPrice span::text').get() + '万'        # 单价        unitPrice = li.css('.unitPrice span::text').get().replace('单价', '')        # 发布信息        followInfo = li.css('.followInfo::text').get()        dit = {            '': title,            '小区': community,            '地名': address,            '房子基本信息': houseInfo,            '房价': Price,            '单价': unitPrice,            '发布信息': followInfo,        }        print(dit)

3、保存数据(数据持久化)

# 创建文件f = open('二手房数据.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['', '小区', '地名', '房子基本信息',                                           '房价', '单价', '发布信息'])# 写入表头csv_writer.writeheader()''''''''csv_writer.writerow(dit)

4、多页爬取

需要for 循环遍历pg的参数 即可多页爬取

# 第二页url地址url_2 = 'https://cs.lianjia.com/ershoufang/pg2/'# 第三页url地址url_3 = 'https://cs.lianjia.com/ershoufang/pg3/'# 第四页url地址url_4 = 'for page in range(1, 101):    url = f'https://cs.lianjia.com/ershoufang/pg{page}/'

以上是“怎么使用python爬虫爬取二手房数据”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网行业资讯频道!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯