文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何用Python获取成都租房信息

2023-06-02 04:03

关注

这篇文章将为大家详细讲解有关如何用Python获取成都租房信息,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

信息数据的获取,这里首先收集赶集网和自如网的信息。

赶集网信息获取

如何用Python获取成都租房信息

I. 获取当页内容

这里的规则比较明显,获取网页内容用xpath解析即可,各个板块的信息都很容易获取,最后用列表保存并返回即可,首先循环出每个divs块,对里面的每个版块内容逐个获取

def get_this_page_gj(url, tmp): html = etree.HTML(requests.get(url).text) divs = html.xpath('//div[@class="f-list-item ershoufang-list"]') for div in divs: title = div.xpath('./dl/dd[@class="dd-item title"]/a/text()')[0] house_url = div.xpath('./dl/dd[@class="dd-item title"]/a/@href')[0] size = "、".join(div.xpath('./dl/dd[@class="dd-item size"]/span/text()')) address = '-'.join([ data.strip() for data in divs[0].xpath('./dl/dd[@class="dd-item address"][1]//a//text()') if data.strip() != '' ] ) agent_string = div.xpath('./dl/dd[@class="dd-item address"][2]/span/span/text()')[0] agent = re.sub(' ', '', agent_string) price = div.xpath('./dl/dd[@class="dd-item info"]/div[@class="price"]/span[@class="num"]/text()')[0] tmp.append([ title, size, price, address, agent, house_url ]) return tmp

II. URL构造

访问首页链接,获取总页数,按照url的访问规则构造url,调用获取当页数据的方法即可,这里的url都是以http://cd.ganji.com/zufang/pn开头的,后面跟上网页的页码

def house_gj(headers): index_url = 'http://cd.ganji.com/zufang/' html = etree.HTML(get_html(index_url, headers)) total = html.xpath('//div[@class="pageBox"]/a[position() = last() -1]/span/text()')[0] result = [] for num in range(1, int(total) + 1): result += get_this_page_gj('http://cd.ganji.com/zufang/pn{}'.format(num), []) print('完成读取第{}页/赶集网'.format(num)) return result

2 .

这里和赶集网类似,结构也相似,同样的获取方式,我们也抓取基础信息加url链接,区别在于这里的价格可能不太好获取,并不是直接显示,而是以图片+偏移量的形式展示

如何用Python获取成都租房信息

价格获取

每个数字对应一张图片,图片中的数字会根据style中设置的偏移去原图中获取,每页的原图也不尽相同,所以处理起来比较麻烦

如何用Python获取成都租房信息

如何用Python获取成都租房信息

这里我们仔细留心的会发现其实每个数字间的间距是一样的,可以自己在页面上更改数值查看规律,每个数字间的距离是21.4px,从原图的左边开始做偏移,根据偏移确定对应的数字,返回的数字下标 = |偏移量/21.4|,当然这里根据页面图片、内容等元素会有微小的误差,但都是极小的误差了,最后取个整去原图的数字列表中取得对应下标的值即可,这里我们用到tesseract来对图片进行解析

............price_strings = div.xpath('./div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style')offset_list = []for data in price_strings: offset_list.append(re.findall('position: (.*?)px', data)[0])style_string = html.xpath('//div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style')[0]pic = "http:" + re.findall(r'background-image: url\((.*?)\);.*?', style_string)[0]price = get_price_zr(pic, offset_list)def get_price_zr(pic_url, offset_list): ''' 这里的index保存所有数字的下标值,等待图片解析完成获取对应下标的价格数字 ''' index, price = [], [] with open('pic.png', 'wb') as f: f.write(requests.get(pic_url).content) code_list = list(pytesseract.image_to_string(Image.open('pic.png'))) for data in offset_list: index.append(int(math.fabs(eval(data)/21.4))) for data in index: price.append(code_list[data]) return "".join(price)

自如网数据获取

这里和赶集网类似,结构也相似,同样的获取方式,我们也抓取基础信息加url链接,区别在于这里的价格可能不太好获取,并不是直接显示,而是以图片+偏移量的形式展示

如何用Python获取成都租房信息

I. 价格获取

每个数字对应一张图片,图片中的数字会根据style中设置的偏移去原图中获取,每页的原图也不尽相同,所以处理起来比较麻烦

如何用Python获取成都租房信息

如何用Python获取成都租房信息

这里我们仔细留心的会发现其实每个数字间的间距是一样的,可以自己在页面上更改数值查看规律,每个数字间的距离是21.4px,从原图的左边开始做偏移,根据偏移确定对应的数字,返回的数字下标 = |偏移量/21.4|,当然这里根据页面图片、内容等元素会有微小的误差,但都是极小的误差了,最后取个整去原图的数字列表中取得对应下标的值即可,这里我们用到tesseract来对图片进行解析

............price_strings = div.xpath('./div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style')offset_list = []for data in price_strings: offset_list.append(re.findall('position: (.*?)px', data)[0])style_string = html.xpath('//div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style')[0]pic = "http:" + re.findall(r'background-image: url\((.*?)\);.*?', style_string)[0]price = get_price_zr(pic, offset_list)def get_price_zr(pic_url, offset_list): ''' 这里的index保存所有数字的下标值,等待图片解析完成获取对应下标的价格数字 ''' index, price = [], [] with open('pic.png', 'wb') as f: f.write(requests.get(pic_url).content) code_list = list(pytesseract.image_to_string(Image.open('pic.png'))) for data in offset_list: index.append(int(math.fabs(eval(data)/21.4))) for data in index: price.append(code_list[data]) return "".join(price)

II. 获取当页数据

这里和赶集网类似,我们构造获取每页数据的函数,之后调用函数传入每页的url即可,这里可以关注一下xpath的扩展用法(contains函数)和正则获取原图链接

def get_this_page_zr(url, tmp): html = etree.HTML(requests.get(url).text) divs = html.xpath('//div[@class="item"]') for div in divs: if div.xpath('./div[@class="info-box"]/h6/a/text()'): title = div.xpath('./div[@class="info-box"]/h6/a/text()')[0] else: continue link = 'http:' + div.xpath('./div[@class="info-box"]/h6/a/@href')[0] location = div.xpath('./div[@class="info-box"]/div[@class="desc"]/div[@class="location"]/text()')[0] area = div.xpath('./div[@class="info-box"]/div[@class="desc"]/div[contains(text(), "㎡")]/text()')[0] price_strings = div.xpath('./div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style') offset_list = [] for data in price_strings: offset_list.append(re.findall('position: (.*?)px', data)[0]) style_string = html.xpath('//div[@class="info-box"]/div[@class="price"]/span[@class="num"]/@style')[0] pic = "http:" + re.findall(r'background-image: url\((.*?)\);.*?', style_string)[0] price = get_price_zr(pic, offset_list) tag = '、'.join(div.xpath('./div[@class="info-box"]//div[@class="tag"]/span/text()')) tmp.append([ title, tag, price, area, location, link ]) return tmp

III. url构造

原理同赶集网的一样,主要关注一下xpath的扩展用法position()=last()

def house_zr(headers): index_url = 'http://cd.ziroom.com/z/' html = etree.HTML(get_html(index_url, headers)) total = html.xpath('//div[@class="Z_pages"]/a[position()=last()-1]/text()')[0] result = [] for num in range(1, int(total) + 1): result += get_this_page_zr('http://cd.ziroom.com/z/p{}/'.format(num), []) print('完成读取第{}页/自如网'.format(num)) return result

关于如何用Python获取成都租房信息就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯