文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?

2024-12-11 19:19

关注

我经常会收到读者关于一系列咨询运维方面的事情,比如:杰哥,运维到底是做什么的呀?运维的薪资水平/ 待遇怎么样呢?杰哥帮忙看下这个岗位的招聘需要对于小白来说,能否胜任的了呢?等等。

这里,我把之前写的《一篇文章带你解读从初级运维工程师到资深运维专家的学习路线》,本文从初级 / 中级 / 高级运维工程师以及到资深方向逐步展开给大家汇总了一些各阶段所具备的技能,仅供学习路线参考,如有补充,可通过本文进行留言参与互动。

这次呢,杰哥带着一种好奇心的想法,结合自身的工作经验与业界全国关于招聘运维工程师的岗位做一个初步型的分析,我的一位好朋友 —— 黄伟呢,帮我爬取了 13966 条关于运维的招聘信息,看看有哪些数据存在相关差异化。主要包括内容:

 

对于本文的叙述,我们分以下三步为大家讲解。

1、爬虫部分

本文主要爬取的是 51job 上面,关于运维相关岗位的数据,网站解析主要使用的是Xpath,数据清洗用的是 Pandas 库,而可视化主要使用的是 Pyecharts 库。

相关注释均已在代码中注明,为方便阅读,这里只展示部分代码,完整代码可查看文末部分进行获取。

  1. 1、岗位名称 
  2.  
  3. job_name = dom.xpath('//div[@class="dw_table"]/div[@class="el"]//p/span/a[@target="_blank"]/@title'
  4.  
  5. 2、公司名称 
  6.  
  7. company_name = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t2"]/a[@target="_blank"]/@title'
  8.  
  9. 3、工作地点 
  10.  
  11. address = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t3"]/text()'
  12.  
  13. 4、工资 
  14.  
  15. salary_mid = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t4"]'
  16.  
  17. salary = [i.text for i in salary_mid] 
  18.  
  19. 5、发布日期 
  20.  
  21. release_time = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t5"]/text()'
  22.  
  23. 6、获取二级网址url 
  24.  
  25. deep_url = dom.xpath('//div[@class="dw_table"]/div[@class="el"]//p/span/a[@target="_blank"]/@href'
  26.  
  27. 7、爬取经验、学历信息,先合在一个字段里面,以后再做数据清洗。命名为random_all 
  28.  
  29. random_all = dom_test.xpath('//div[@class="tHeader tHjob"]//div[@class="cn"]/p[@class="msg ltype"]/text()'
  30.  
  31. 8、岗位描述信息 
  32.  
  33. job_describe = dom_test.xpath('//div[@class="tBorderTop_box"]//div[@class="bmsg job_msg inbox"]/p/text()'
  34.  
  35. 9、公司类型 
  36.  
  37. company_type = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[1]/@title'
  38.  
  39. 10、公司规模(人数) 
  40.  
  41. company_size = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[2]/@title'
  42.  
  43. 11、所属行业(公司) 
  44.  
  45. industry = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[3]/@title'

2、数据清洗

1)读取数据

  1. # 下面使用到的相关库,在这里展示一下 
  2.  
  3. import pandas as pd 
  4.  
  5. import numpy as np 
  6.  
  7. import re 
  8.  
  9. import jieba 
  10.  
  11. df = pd.read_csv("only_yun_wei.csv",encoding="gbk",header=None) 
  12.  
  13. df.head() 

2)为数据设置新的行、列索引

  1. # 为数据框指定行索引 
  2.  
  3. df.index = range(len(df)) 
  4.  
  5. # 为数据框指定列索引 
  6.  
  7. df.columns = ["岗位名","公司名","工作地点","工资","发布日期","经验与学历","公司类型","公司规模","行业","工作描述"
  8.  
  9. df.head() 

3)去重处理

  1. # 去重之前的记录数 
  2.  
  3. print("去重之前的记录数",df.shape) 
  4.  
  5. # 记录去重 
  6.  
  7. df.drop_duplicates(subset=["公司名","岗位名","工作地点"],inplace=True) 
  8.  
  9. # 去重之后的记录数 
  10.  
  11. print("去重之后的记录数",df.shape) 

4)对岗位名字段的处理

  1. # ① 岗位字段名的探索 
  2.  
  3. df["岗位名"].value_counts() 
  4.  
  5. df["岗位名"] = df["岗位名"].apply(lambda x:x.lower()) 
  6.  
  7. # ② 构造想要分析的目标岗位,做一个数据筛选 
  8.  
  9. df.shape 
  10.  
  11. target_job = ['运维','Linux运维','运维开发','devOps','应用运维','系统运维','数据库运维','运维安全','网络运维','桌面运维'
  12.  
  13. index = [df["岗位名"].str.count(i) for i in target_job] 
  14.  
  15. index = np.array(index).sum(axis=0) > 0 
  16.  
  17. job_info = df[index] 
  18.  
  19. job_info.shape 
  20.  
  21. job_list = ['linux运维','运维开发','devOps','应用运维','系统运维','数据库运维' 
  22.  
  23. ,'运维安全','网络运维','桌面运维','it运维','软件运维','运维工程师'
  24.  
  25. job_list = np.array(job_list) 
  26.  
  27. def rename(x=None,job_list=job_list): 
  28.  
  29. index = [i in x for i in job_list] 
  30.  
  31. if sum(index) > 0
  32.  
  33. return job_list[index][0
  34.  
  35. else
  36.  
  37. return x 
  38.  
  39. job_info["岗位名"] = job_info["岗位名"].apply(rename) 
  40.  
  41. job_info["岗位名"].value_counts()[:10

5)工资字段的处理

  1. job_info["工资"].str[-1].value_counts() 
  2.  
  3. job_info["工资"].str[-3].value_counts() 
  4.  
  5. index1 = job_info["工资"].str[-1].isin(["年","月"]) 
  6.  
  7. index2 = job_info["工资"].str[-3].isin(["万","千"]) 
  8.  
  9. job_info = job_info[index1 & index2] 
  10.  
  11. job_info["工资"].str[-3:].value_counts() 
  12.  
  13. def get_money_max_min(x): 
  14.  
  15. try
  16.  
  17. if x[-3] == "万"
  18.  
  19. z = [float(i)*10000 for i in re.findall("[0-9]+\.?[0-9]*",x)] 
  20.  
  21. elif x[-3] == "千"
  22.  
  23. z = [float(i) * 1000 for i in re.findall("[0-9]+\.?[0-9]*", x)] 
  24.  
  25. if x[-1] == "年"
  26.  
  27. z = [i/12 for i in z] 
  28.  
  29. return z 
  30.  
  31. except: 
  32.  
  33. return x 
  34.  
  35. salary = job_info["工资"].apply(get_money_max_min) 
  36.  
  37. job_info["最低工资"] = salary.str[0
  38.  
  39. job_info["最高工资"] = salary.str[1
  40.  
  41. job_info["工资水平"] = job_info[["最低工资","最高工资"]].mean(axis=1

6)工作地点字段的处理

  1. address_list = ['北京''上海''广州''深圳''杭州''苏州''长沙'
  2.  
  3. '武汉''天津''成都''西安''东莞''合肥''佛山'
  4.  
  5. '宁波''南京''重庆''长春''郑州''常州''福州'
  6.  
  7. '沈阳''济南''宁波''厦门''贵州''珠海''青岛'
  8.  
  9. '中山''大连','昆山',"惠州","哈尔滨","昆明","南昌","无锡"
  10.  
  11. address_list = np.array(address_list) 
  12.  
  13. def rename(x=None,address_list=address_list): 
  14.  
  15. index = [i in x for i in address_list] 
  16.  
  17. if sum(index) > 0
  18.  
  19. return address_list[index][0
  20.  
  21. else
  22.  
  23. return x 
  24.  
  25. job_info["工作地点"] = job_info["工作地点"].apply(rename) 
  26.  
  27. job_info["工作地点"].value_counts() 

7)公司类型字段的处理

  1. job_info.loc[job_info["公司类型"].apply(lambda x:len(x)<6),"公司类型"] = np.nan 
  2.  
  3. job_info["公司类型"] = job_info["公司类型"].str[2:-2
  4.  
  5. job_info["公司类型"].value_counts() 

8)行业字段的处理

  1. job_info["行业"] = job_info["行业"].apply(lambda x:re.sub(",","/",x)) 
  2.  
  3. job_info.loc[job_info["行业"].apply(lambda x:len(x)<6),"行业"] = np.nan 
  4.  
  5. job_info["行业"] = job_info["行业"].str[2:-2].str.split("/").str[0
  6.  
  7. job_info["行业"].value_counts() 

9)经验与学历字段的处理

  1. job_info[“学历”] = job_info[“经验与学历”].apply(lambda x:re.findall(“本科|大专|应届生|在校生|硕士|博士”,x)) 
  2.  
  3. def func(x): 
  4.  
  5. if len(x) == 0
  6.  
  7. return np.nan 
  8.  
  9. elif len(x) == 1 or len(x) == 2
  10.  
  11. return x[0
  12.  
  13. else
  14.  
  15. return x[2
  16.  
  17. job_info[“学历”] = job_info[“学历”].apply(func) 
  18.  
  19. job_info[“学历”].value_counts() 

10)公司规模字段的处理

  1. def func(x): 
  2.  
  3. if x == “[‘少于50人’]”: 
  4.  
  5. return “<50
  6.  
  7. elif x == "['50-150人']"
  8.  
  9. return "50-150" 
  10.  
  11. elif x == "['150-500人']"
  12.  
  13. return '150-500' 
  14.  
  15. elif x == "['500-1000人']"
  16.  
  17. return '500-1000' 
  18.  
  19. elif x == "['1000-5000人']"
  20.  
  21. return '1000-5000' 
  22.  
  23. elif x == "['5000-10000人']"
  24.  
  25. return '5000-10000' 
  26.  
  27. elif x == "['10000人以上']"
  28.  
  29. return ">10000” 
  30.  
  31. else
  32.  
  33. return np.nan 
  34.  
  35. job_info[“公司规模”] = job_info[“公司规模”].apply(func) 

11)将处理好的数据,构造新数据,导出为新的 excel

  1. feature = [“公司名”,”岗位名”,”工作地点”,”工资水平”,”发布日期”,”学历”,”公司类型”,”公司规模”,”行业”,”工作描述”] 
  2.  
  3. final_df = job_info[feature] 
  4.  
  5. final_df.to_excel(r”可视化.xlsx”,encoding=”gbk”,index=None) 

3、数据可视化

1)可视化大屏效果

2)热门行业的用人需求 Top10

从招聘行业的数据来看,计算机软件,计算机服务,互联网,通信行业用人需求相比其他行业占比会高。

3)热门城市的岗位数量 Top10

从热门城市来看,北上广深的一线城市,用人岗位数占比较大,不过这里的异地招聘数据及结合过往经验,偏外包性质的企业。

4)岗位的省份分布

岗位分布省份,通过最左侧的颜色棒,我们可以看出颜色最深的地区岗位招聘数越集中,相反之下,最浅的也就是岗位招聘数越少的省份。从下图来看,广东省、江苏省、上海及北京颜色相比其他省份占据分布会比较集中些。

5)不同公司规模的用人情况

行业的不同,公司规模肯定是存在有差异的。公司规模是指按有关标准和规定划分的公司规模,一般分为特大型、大型、中型、小型、微型。如下图,公司规模人数在 50-500 范围内占据 50% 以上,用人需求最高,1000-10000 范围占据不到 50 %,不过这样的公司规模已经是比较大的了。

6)排名前 10 的岗位的平均薪资

根据我的了解,比如:系统工程师、软件 / 实施工程师、运维专员 等一系列的岗位其实也是可以划分在运维领域范畴之内的,每家公司对运维工作者的岗位名称定义有所不同,为了能够更精准的筛选分析,把那些岗位占时去掉了。留下了以下 10 个岗位名称(运维开发、运维工程师、软件运维、网络运维、系统运维、桌面运维、数据库运维、应用运维、Linux 运维、IT 运维)这些岗位名称基本是我见过招聘信息内最多的。

排名前 10 的岗位平均薪资,运维开发、应用运维、数据库运维、Linux 运维均在 1W 以上。因此,也可以看出运维开发在运维领域的优势,是占据前沿位置。

7)运维岗位的学历要求分布

从学历要求方面来看,大专及本科学历占比居多。在校生、硕士、博士基本太少了,因此会有一些我的学生群体读者会问我,对于一个应届毕业生,找运维工作好找吗?站在我个人的角度,我是不建议你毕业后去做运维的。因为运维对你个人的技术水平及工作经验有些非常高的要求,而对于一个刚毕业的学生来说,没有过多的实践经验,也不会有很大的优势,除非是这个岗位对你有极大的兴趣爱好,但凡你也可以尝试下。

8)运维岗位需求的词云图分布

从运维岗位招聘需求词云图来看,词频最多的主要包括:运维、能力、系统、维护、经验等等,因此也可以看出运维岗位对个人技术能力以及过往工作经验是要求非常高的。当然了还有很多其他相关的词频,可通过下图查看详情。

总结

介绍了这么多,相信你也对运维工程师有了初步的认识与了解,通过本篇文章你可以了解到哪些行业的对运维的用人需求是比较高的?最为招聘运维热门的城市有哪些?运维岗位的分布、不同公司规模对运维工程师的用人情况占比、关于运维相关岗位的平均薪资、招聘运维岗位对学历的要求以及运维岗位需求词云图包括哪些词频最多,通过这一数据的分析,相信能对你在今后的运维求职方向、行业、城市以及公司规模有所初步的判断及选择,希望对你有所帮助。

 

来源:高效运维内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯