文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

找工作如虎添翼!数据科学作品集中必须具备的4类项目

2024-12-03 15:41

关注

在数据科学领域找到一份好工作是项艰巨任务,挑战重重。尽管数据科学正在迅速发展,但是对这一领域感兴趣或由于高薪而加入的人数正在成倍增加。因此,尽管对优秀数据科学家的需求很大,但是找到相关工作却非常困难。为了找到工作,你需要在数百名(甚至数千名)应聘者中脱颖而出。

一名优秀的数据科学家有很多方面的标准,有些涉及技术,有些则不是。作为数据科学家,需要拥有优秀的作品集,才能清楚地展示其技术技能及软技能。最重要的是,作品集需要证明你渴望学习。

数据科学是一个非常广阔的领域,“数据科学”作为统称涵盖许多主题,包括机器学习、计算机版本、人工智能和自然语言处理的所有子领域。尽管主题众多,但要证明作为数据科学家的价值,只需要展示自己具备数据科学核心概念中的能力即可。

本文讨论了4种类型的数据科学项目,有了这些项目可以在求职者的作品集脱颖而出,丰富技能,并增加获得理想工作的机会。

数据清洗

数据科学家可能将花费近80%的时间来清洗数据,在不干净且混乱的数据集上无法建立可靠有效的模型。

清洗数据时,可能需要花费大量时间才能弄清楚数据集中各列的用途。有时,在经过数小时甚至数天的清洗之后,会发现所分析的数据集并不真正适合要实现的目标!然后需要重新开始该过程。

清洗数据是一个令人沮丧和艰巨的任务。但是,它是每份数据科学工作中非常重要的组成部分,为了使其不那么艰巨,需要不断进行练习。有专门用于练习数据清洗的数据集。在为数据清洗项目寻找合适的候选数据集时,需要确保:

收集和汇总数据集的网站上经常可以找到优质的数据集用于清洗(或者笔者称之为非常混乱的数据集)。这些网站从各种来源收集数据而不会吞掉它们,这使得这些数据集成为数据清洗项目的首选。

此类网站包括:

探索性数据分析

数据清洗和整理后,将需要进行探索性数据分析(EDA)。EDA是每个数据科学项目中的重要步骤之一。执行EDA有很多好处,例如:

可以遵循许多技术来执行有效的EDA,其中大多数技术本质上都是图形化的。其背后的原因是,最好以视觉方式显示数据中的模式和异常。EDA任务中特定图形技术用途非常简单,例如:

可以从许多资源中学习EDA的基础知识,并培养出一种探索数据模式的直觉。最喜欢的一大主题课是约翰霍普金斯大学在Coursera上开设的课程。

数据可视化

数据科学家创建任何一种数据科学项目通常是为了揭露秘密或获取信息,它们以某种方式帮助改进或理解数据。在大多数情况下,这是以学术或商业为导向的。每个数据科学家必须开发的技能之一就是能够用其数据讲述一个引人入胜的故事。

讲故事的最好方法是可视化。可以使用许多公开可用的数据集来进行数据可视化,创建仪表板并使用数据讲述故事。笔者最喜欢的一些数据集包括:FiveThirtyEight、Google的Dataset Search、Data is Plural,当然,谈论数据集时还不能不提及Kaggle。

为了脱颖而出,需要成为一个会讲故事的人。数据需要进行有效的可视化。幸运的是,有许多资源可以学习和练习数据可视化技能。可以阅读有关可视化的文章,或参加好的可视化课程。

机器学习

机器学习的流畅性决定从事数据科学工作的成败。有时,当新手加入该领域时,往往会跳过基础知识而直接学习该领域更高大上的知识。

但在深入探讨此类进阶知识之前,需要确保已建立机器学习基础知识的坚实基础。掌握基础知识不仅会夯实技能基础,还提供必要的知识,使你可以更快、更轻松地掌握任何新概念和高阶知识。

确保参与过涵盖所有机器学习基础知识的项目,例如回归(线性回归、逻辑回归等),分类算法和聚类算法。笔者最喜欢的有关机器学习基础的资源包括《The Deep Learning Book》的机器学习基础章节和CodeAcademy的机器学习课程。以下是一些简单但功能强大的机器学习项目:

在数据科学领域找到好工作可能会非常具有挑战性。为了在众人中脱颖而出,求职者的作品集需要体现本人具备数据科学基本概念的坚实基础。强大的基础意味着游刃有余的学习状态、轻松实施和适应新的模型和算法。

本文列举的项目可证明扎实的数据科学基础。但是,做过这些项目不足以找到工作。求职者还需要提高自己的软技能,例如沟通能力、叙事能力和基本的业务模型理解能力。一些高水平项目也可显示具体知识掌握情况。祝你顺利得到心动的offer!

 

来源:读芯术内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯