文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

2023-09-02 08:59

关注

python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。

1.理解数据

数据字段含义

了解数据内容,确保数据来源是正常的,安全合法的。理解一下每一个字段的含义,A列是序号ID,不连续,没有多大的意义可以删除掉;B列uid为看视频的用户id;C列user_city为用户所在的城市,用数字来代替;D列为intem_id为作品的ID;E列author_id为发布作品的作者ID;F列item_city为发布视频作者所在的城市;G列channel为观看视频的来源,现在视频的来源不光是在APP上,在其他网站或者视频上都能有视频的推送;H列finish为是否完整浏览了视频作品;I列like为是否为作品点赞;J列music_id为使用的音乐;K列duration_time为作品的时长;L列real_time为作品真实发布的时间;M列H为当前的时间,具体到小时;N列date为发布的日前。
常用的代码 可以直接复制使用

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport pyecharts %matplotlib inline  # 每一行默认输出plt.style.use('ggplot')  # 风格的设置plt.rcParams['font.family'] = 'SimHei'  # 设置中文字体plt.rcParams['axes.unicode_minus'] = False # 坐标轴支持负号

导入数据的时候,数据内容比较多,超出excel或者wps文件的范围时,打开数据就会有缺失。在数据处理的时候,如果处理的数据是几百条到万以内的,excel和wps可以进行相应的操作;分析的数据级别是几千到几十万,超出了excel和wps的表格范围,数据不能正常的显示,所以就要用pandas进行分析;如果数据是以亿级别的,就要用到大数据分析。
在这里插入图片描述
导入数据之后,对数据进行预览,可以看到有100多万条数据,之前的查看信息会显示有数据的数量,如果数据没有缺失值的话,就不再显示数据的数量。可以用describe来统计表中数值的信息,查看有无异常数值,如果表中数据为字符串则不显示。
在这里插入图片描述
在这里插入图片描述

2.数据处理

数据处理,在机器学习中成为数据清洗和特征工程。在探索性的数据分析(EDA)中,用不到算法的话,只需要做数据相应的处理,包含了数据的清洗。
在这里插入图片描述
如果对表格的原数据进行更改,可以在参数里增加inplace=True;如果不再原数据上进行更改,可以把更改的内容重新赋值为原数据的变量名。
在这里插入图片描述

3.分析数据

通过可视化的手段,利用图表来对数据进行分析。在探索型的数据分析(EDA)中经常用可视化来完成,利用图表展示;在验证性的数据分析中,要利用统计学的知识做假设校验,运用算法进行预测,建立模型。
在这里插入图片描述
画图之前要先把需要的x轴和y轴的数据准备好。分析日播放量、日用户量、日作者量、日作品量跟时间有关系,x轴为时间,y轴是播放、用户、作者、作品的信息,可以通过日期进行分组来进行计算。
在这里插入图片描述
在这里插入图片描述
作品数量top50中,数量与播放率、点赞率之间之间的关系;
在这里插入图片描述
在这里插入图片描述

4.结论

4.1分析日播放量、日用户量、日作者量、日作品量跟时间有关系

日播放量、日用户量、日作者量、日作品量随时间的变化保持一样的变化趋势,前期都平稳增长,从10-20到10-29日,出现了剧烈增长,随后又出现了下降的趋势,可能是这个期间平台进行活动,吸引用户去发布作品和观看作品,作品量,作者量,作者量在这个时间内都会出现巨幅增长,活动结束用户就回归到正常的水平。

4.2 数量与播放率、点赞率之间之间的关系

数量与播放率是成正比;作品的数量和点赞率之间没有明显的关系。

用pandas做数据处理,用pyecharts做可视化的图表,分析市面上二手房各项的基本特征以及房源分布的情况,探索二手房背后的规律。

1.导入库、读取数据

常用的数据可以直接理解,专业的数据需要掌握专业的知识,提前了解专业背景。
在这里插入图片描述

查看信息

查看数据统计以及基本信息,楼层、面积、价格、年份列为数值,电梯列有缺失。
在这里插入图片描述

2.数据处理

缺失值

电梯列缺失8257条数据,对于缺失值的处理有删除和填充操作,查看一下电梯列出现的数据,查看电梯列的值的唯一值,为“有电梯”、“无电梯”和NaN,对于不确定的因素,可以填充NaN为第三方的数据,比如填充为“未知”。
在这里插入图片描述
查看数据求朝向的唯一值,发现房屋的朝向有意义相同的值,比如“西南”和“南西”表示同一个方位,可以对数据进行替换,对值进行统一。利用groupby统计各个城区二手房的数量,发现丰台、昌平、朝阳、海淀的二手房屋数量最多。
在这里插入图片描述

数据转换

把数据转换为列表,便于图表的绘制。
在这里插入图片描述

3.可视化分析

3.1 各个城区二手房数量分布地图

把每个区的名字取出来,拼接上字符串“区”,实例化地图类,传入键值对,绘制地图。移动鼠标可以很便捷的查看每个区的房屋数据,拖动左侧的热力图可以使得筛选区域在地图上以不同的颜色进行显示。
在这里插入图片描述

3.2 各个城区二手房的平均价格

对于列名称要直接复制,以防列名称中有空格类的字符,在代码中直接输入会找不到。
在这里插入图片描述
以区域为x轴,房屋的数量和平均价格分别为y轴绘制图表。
在这里插入图片描述
在这里插入图片描述

3.3 二手房价格最高的Top15

在这里插入图片描述
在这里插入图片描述

3.4 二手房的总价与面积的散点图

说明房屋集中在面积400平以下,价格3000万以下。
在这里插入图片描述

3.5 房屋朝向的饼图

大部分房屋都是南北朝向。
在这里插入图片描述
在这里插入图片描述

3.6 装修情况的柱状图和有无电梯的玫瑰图

玫瑰图也就是不规则的圆环图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.7 二手房楼层分布柱形图

通过数据可以看出 6层的楼房交易量最多。
在这里插入图片描述
在这里插入图片描述

3.8 房屋面积分布柱形图

每套房的面积是连续型的数值,不能进行分组,因为每套房的面积大都不相同,可以利用区间进行面元划分。
在这里插入图片描述
在这里插入图片描述

4. 分析结论

对二手房数据从不同角度进行分析,通过图表可以得出:
每个城区的二手房数量,丰台、昌平、朝阳、海淀四个区域在售的二手房数量是最多的,占总二手房的一半;
从平均售价中可以看出,丰台、昌平、朝阳、海淀的平均售价在800万以上;
二手房房屋的面积大概都在200平左右;约50%的房子都是南北朝向;
通过装修情况可以看出装修的房子比较多,说明自己住的房子出售的比较多;
大多数在售的房屋都是6层;大多数房屋的面积在150平以内。

来源地址:https://blog.csdn.net/hwwaizs/article/details/127780284

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯