文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

用Python爬取了某宝1166家月饼数据进行可视化分析,终于找到最好吃的月饼~

2024-12-01 15:44

关注

在有几天就是中秋节了,不知道大家有没有跟志斌一样的选择困难症,面对琳琅满目的商品,不知道挑哪款月饼送长辈最好。

不过好在志斌会Python,将淘宝上的月饼商品都爬取了下来,并进行可视化分析,从而你看看哪款月饼是最合适的。

1.数据采集

数据采集是数据可视化分析的第一步,也是最基础的一步,数据采集的数量和质量越高,后面分析的准确的也就越高,我们来看一下淘宝网的数据该如何爬取。

淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对Selenium进行了反爬限制,所以我们要换种思路来进行数据获取。

志斌打开开发者模式,开始对网页进行观察后发现,淘宝商品的数据竟然在源网页中以注释的方式存储着。

已经发现了数据存储的位置和方式,那我们可以直接构建爬虫了,部分代码如下:

import requests
import re
import openpyxl
response = requests.get(url, headers=headers, params=params)for i in range(44):
try:
if (fukuanrenshu[i] == '1.5万+'):
f = 15000
elif (fukuanrenshu[i] == '1.0万+'):
f = 10000
elif ('+'in fukuanrenshu[i]):
f = re.findall('\d+', fukuanrenshu[i])
else:
f = fukuanrenshu[i]
if float(jiage[i]) > 10:
sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])

2.数据清洗

数据采集后,要对其进行清洗,剔除脏数据,有助于提高分析的准确性。

(1)导入商品数据

用pandas读取爬取后的商品数据并预览。

import pandas as pd
df = pd.read_excel('月饼.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
print(df.head())

(2)删除重复数据

df.drop_duplicates()

(3)查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

df.info()

3.可视化分析

我们来对这1166家月饼商品数据进行可视化分析。可视化图是由Python、Tableau和Excel共同绘制而来。

(1)在售月饼的特点

通过对月饼的商品名称进行词云图绘制,志斌发现蛋黄、广式、五仁、莲蓉、豆沙味的月饼售卖较多,同时淘宝上售卖的月饼大多是用来给人们送礼的。

制作代码如下:

from imageio import imread
import jieba
from wordcloud import WordCloud, STOPWORDS

with open("1.txt",'r',encoding='utf-8') as f:
job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,
background_color="white",
font_path=r"K:\msyh.ttc",
width=400, height=300, random_state=42,
mask=imread('月饼.jpg', pilmode="RGB")
)
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")

(2)各省产量分布图

通过对各商品的产地数据进行统计并绘制了全国地图,我们发现广东、浙江和北京这三个地方生产月饼最多,分别是312家、221家和131家。

制作代码如下:

import openpyxl
from collections import Counter
from pyecharts import Map
wb = openpyxl.load_workbook('月饼.xlsx')
sheet = wb['Sheet']
a = []
for i in range(2,1960):
D = sheet[f'D{i}']
a.append(D.value)
province_distribution = dict(Counter(a))
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中国地图",width=1200, height=600)
map.add("", provice, values, visual_range=[0, 50], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地图.html")

我们进一步对广东省的产地数据进行分析发现,广州的月饼商家最多,占全省的40%。

(3)月饼价格区间分布

我们对月饼价格以100为分点,进行可视化后发现,价格在100以内的月饼商品最多,有478家,其次是价格在100-200之间的,有399家。看来月饼的价格还是相对便宜的~

(4)月饼月销量top20商家

我们发现月饼销量top20的商店都是旗舰店,看来大家在网上购买食品类商品时还是喜欢去官方的店铺进行购买。其中稻香村食品店的月饼销量最高,志斌一会去这家看看。

看完月销量,在来看看月销额。我们发现美心官方旗舰店的月销额很高,但是它的月销量很低,看来它的月饼商品价格略高。

(5)志斌入手的月饼

经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,志斌最终选择购买这款月饼来送给长辈。

来源:志斌的python笔记内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯