数据解析利用一系列学科(包括计算机编程、数学和统计学)对数据进行分析,以努力描述、预测和提高绩效。为确保分析的稳健性,数据解析团队会利用一系列数据管理技术,包括数据挖掘、数据清理、数据转换、数据建模等。
数据解析的四种类型是什么?
解析大致分为四种类型:描述性解析,试图描述特定时间内发生的事情;诊断性解析,评估事情发生的原因;预测性解析,确定未来发生事情的可能性;规范性解析,提供实现预期结果的建议行动。
更具体地说,描述性解析使用多种来源的历史和当前数据,通过识别趋势和模式来描述当前状态或特定的历史状态。在商业解析中,这属于商业智能(BI)的范畴。诊断性解析使用数据(通常通过描述性解析生成)来发现过去绩效的因素或原因。预测解析将统计建模、预测和机器学习(ML)等技术应用到描述性解析和诊断性解析的输出中,对未来结果进行预测。预测性解析通常被视为“高级解析”的一种,经常依赖于 ML 和/或深度学习。而规范性解析也是高级解析的一种,涉及应用测试和其他技术来推荐可实现预期结果的具体解决方案。在业务中,规范性解析使用 ML、业务规则和算法。
数据解析方法和技术
数据解析师使用多种方法和技术来分析数据。根据 CareerFoundry 的执行编辑 Emily Stevens 的说法,最常用的方法包括以下七种:
回归分析:一套统计过程,用于估计变量之间的关系,以确定一个或多个变量的变化会如何影响另一个变量--例如,社交媒体支出会如何影响销售额。
Monte Carlo模拟:一种常用于风险分析的数学技术,依靠重复随机抽样来确定由于输入的不确定性而无法轻易预测的事件的各种结果的概率。
因子分析:一种统计方法,用于将海量数据集缩小到更小、更易于管理的数据集,以发现隐藏的模式,例如,用于分析客户忠诚度。
队列分析:将数据集分成具有共同特征的群体或队列进行分析的一种分析形式。例如,用于了解客户群。
聚类分析:一种统计方法,将项目分类并组织成称为聚类的组,以揭示数据结构。例如,保险公司可能会使用聚类分析来调查为什么某些地点与特定的保险理赔有关。
时间序列分析:一种统计技术,通过分析设定时间段或时间间隔内的数据来识别随时间变化的趋势,如每周销售数字或每季度销售预测。
情感分析:一种使用自然语言处理、文本分析、计算语言学和其他工具来了解数据中表达的情感的技术,例如根据客户论坛中的回复来了解客户对品牌或产品的感受。
前六种方法旨在分析定量数据(可测量的数据),而情感分析则是通过将所有数据整理成主题,对定性数据进行解释和分类。
数据分析工具
数据分析师使用一系列工具来帮助他们从数据中获得洞察力。其中最受欢迎的包括
Apache Spark:处理大数据和创建集群计算引擎的开源数据科学平台
Domo Analytics:商业智能 SaaS 平台,用于收集和转换数据
Excel:微软的电子表格软件,用于数学分析和表格报告
Klipfolio 基于云的网络应用程序,用于自助式商业智能和报告
Looker:谷歌的数据解析和 BI 平台、谷歌数据分析和商业智能平台
Power BI:微软的数据可视化和分析工具,用于创建和发布报告和仪表盘
Python 数据科学家中流行的开源编程语言,用于提取、汇总和可视化数据
Qlik 用于探索数据和创建数据可视化的工具套件
QuickSight 亚马逊提供的解析服务,旨在与云数据源集成
R:用于统计分析和图形建模的开源数据解析工具
RapidMiner:包括可视化工作流设计器的数据科学平台
SAP 解析云:基于云的解析和规划解决方案
SAS:用于商业智能和数据挖掘的解析平台
Sisense 流行的自助式商业智能平台
Tableau:来自 Salesforce 的数据分析软件,用于创建数据仪表盘和可视化效果
Talend 数据工程师、数据架构师、分析师和开发人员使用的 ETL 工具
Zoho Analytics:自助式商业智能和数据解析平台
数据解析与数据科学
数据解析是数据科学的一个组成部分,用于了解一个组织的数据是什么样子的。一般来说,数据解析的输出是报告和可视化。数据科学利用解析的输出来研究和解决问题。
数据解析和数据科学之间的区别往往在于时间尺度。数据解析描述现实的当前或历史状态,而数据科学则利用这些数据来预测和/或了解未来。
数据解析与数据分析
虽然数据解析和数据分析这两个术语经常交替使用,但数据分析是数据解析的一个子集,涉及检查、清理、转换和建模数据以得出结论。数据解析包括用于执行数据分析的工具和技术。
数据解析与业务解析
业务解析是数据解析的另一个子集。它使用数据解析技术(包括数据挖掘、统计分析和预测建模)来推动更好的业务决策。Gartner 将业务解析定义为“用于建立分析模型和模拟的解决方案,以创建情景、了解现实和预测未来状态”。
数据解析实例
各行各业的企业都利用数据解析来改善运营、增加收入和促进数字化转型。以下是三个例子:
Fresenius Medical Care公司利用预测性解析预测并发症:专门提供肾透析服务的Fresenius Medical Care公司率先将近乎实时的物联网数据和临床数据结合起来使用,以预测肾透析患者何时会出现一种可能危及生命的并发症,这种并发症被称为“血液透析内低血压”(IDH)。
UPS 通过预测性解析提供弹性和灵活性:跨国航运公司 UPS 创建了统一企业解析工具 (HEAT),帮助其采集和分析客户数据、运营数据和计划数据,以跟踪每个包裹在其网络中移动时的实时状态。该工具可帮助公司跟踪每天运送的大约 2100 万个包裹。
预测性解析帮助Owens Corning 公司开发涡轮叶片:制造商Owens Corning 在其卓越解析中心的帮助下,利用预测性解析技术简化了风力涡轮机叶片玻璃纤维织物的粘合剂测试过程。解析技术帮助该公司将任何一种新材料的测试时间从 10 天缩短到大约2小时。
数据解析岗位工资
根据 PayScale 的数据,数据分析师的平均年薪为 66,310 美元,薪资范围为 48,000 美元至 91,000 美元。类似职位的薪资数据包括
职位名称 工资范围 平均工资
解析经理 74,000 美元至 136,000 美元 104,540 美元
业务分析师 50,000 美元至 88,000 美元 66,898 美元
IT 业务分析师 54,000 美元至 104,000 美元 73,893 美元
数据分析师 48 000 美元至 91 000 美元 66 310 美元
市场研究分析员 44 000 美元至 80 000 美元 59 103 美元
运营研究分析员 51 000 美元至 120 000 美元 82 833 美元
定量分析员 65 000 美元至 142 000 美元 92 089 美元
高级业务分析师 67 000 美元至 121 000 美元 89 595 美元
统计员 59,000 美元至 126,000 美元 86,349 美元
PayScale 还确定了数据分析师薪酬高于全国平均水平的城市。这些城市包括旧金山(30.8%)、纽约(10.7%)和华盛顿(10%)。
来源:www.cio.com