近来,我花了大量时间采访了许多中小企业、数据科学家、商业分析师、领导和客户、程序员、数据爱好者以及来自世界各地不同领域的专家们,整理出一个列表,这些技术将会在该领域保留很长一段时间。
R语言编程
数据科学家喜欢R的原因很多。它虽然语法简单,但是处理各种复杂的数据驱动任务、统计工具的选择以及海量函数库的功能非常强大,且易于安装。它与ggplot2(基于图像语法)相得益彰,可以创建爽心悦目的仪表盘。Shiny使得构建交互式仪表盘变得轻而易举。
Python
Python是一种成熟的面向对象的编程语言,除了常规的数据科学之外,它还专门用于深度学习、web开发和软件开发。像Django和Flask之类的开发框架,可以更轻松且用更少代码,更快地构建成更好的web应用。
我对python和R用户的选择进行了深入调查,并测试他们是否会愿意转向其他编程语言。以下是他们的观点和简要回应。
研究R语言编程的数据科学家期望在深度学习和计算机视觉领域得到更多的支持。在与我进行了交流的人中,R用户可以非常轻松地使用tidyverse、dplyr、data.table执行一流的数据操作。并且,大多数用户都具有统计学背景、ETL、IDE和数据处理能力,能更快地执行复杂数据处理。
而Python用户们已经听说过ggplot2且对其印象深刻,并期望matplotlib & seaborn 也能达到同样的效果,他们认为数据操作的复杂性和速度都可以改进。在利用theano、TensorFlow、 Keras上,Python用户有极大优势,一些行业最好的API都是用Python编写的。
SQL(结构化查询语言)
数据无处不在。如何轻易地提取我们需要的数据以及/或者如何与数据进行交互,是我们如今面临的一大挑战。
SQL是一种与数据库进行交流的语言。很多受访者表示,SQL是一种必须了解的数据操作及检索编程语言,用来与各种数据库进行接口。大数据也是一个有趣的话题,可以参考sparklyr 和 pyspark。Python 和 R 的用户可以从他们的IDEs连接到各种数据库并与数据表通信。
Java
Java编程拥有庞大的粉丝群。在软件开发领域,这种新兴的编程语言仍然炙手可热。当今时代,像react.js和 Vue.js这样的JavaScript框架在先进web开发领域越来越受欢迎。
Adobe AfterEffects(Adobe公司的一款图形视频处理软件)
一位数据科学高级总监在讨论围绕data2insights展开的活动时,呼吁大家一起创建一些很酷的信息图表,重拾数据驱动动画。他认为:在将数据转化为信息时,有许多无比有趣的信息都被忽略了。
领导团队始终依赖那些创建出的数据仪表盘,在建造时嵌入一些很具创意的“混凝土”, “砖块”就是一条条富有价值的信息。
此外,使用Tableau的数据科学现在受到可视化专家的热捧,它在商业智能领域有很大的潜能;Power BI 与微软现有的应用生态系统无缝对接。二者都在不断创新,前景一片光明。
这些都是很具发展潜力和续航力的技术,入股不亏。