作为数据仓库分析与转化的重要组成部分,ETL往往需要依赖合适的工具来实现。目前市场上此类工具可谓林林总总。本文将为您筛选出七大顶级、八大补充ETL软件工具,在逐一介绍其特点和社区得分的基础上,最后给出各种适用的场景。
1. Xplenty
作为基于云端的ETL和ELT(提取、加载、转换)数据的集成平台,Xplenty可以轻松地组合多个数据源。该平台提供了一个简单、直观的可视化界面,可用于在大量数据源和目标之间建立管道。
目前,Xplenty包装了上百种流行的数据存储和SaaS(软件即服务)应用,其中包括:MongoDB、MySQL、PostgreSQL、Amazon Redshift、Google Cloud Platform、Facebook、Salesforce、Jira、Slack、以及QuickBooks等。
Xplenty的优势在于:可扩展性、安全性和出色的客户支持。例如,Xplenty具有一项称为“字段级加密(Field Level Encryption)”的新功能,可允许用户使用自己的加密密钥,对数据字段进行加密或解密。同时,Xplenty也能遵守HIPPA、GDPR和CCPA等法律法规。
目前,在G2网站(译者注:知名的软件与服务评价平台)上有93位评论者为Xplenty给出了4.4颗星(满分为5颗星),并将其称为ETL工具领域的“领先者”之一。作为其中的一名评论者,Kerry D.声称:“该工具非常实用,它使得代码的开发与支持变得迅速且高效。”
2. Talend
Talend Data Integration是一个开源的ETL数据集成解决方案。Talend平台不但能够与本地和云中的数据源相兼容,而且包括了数百个预构建(pre-built)的集成。
虽然对于一般用户而言,Talend的开源版本足以够用,但是较大型的企业用户则会选用其付费版本的数据管理平台。毕竟,付费版里包含了用于设计、生产力管理、监空、以及数据治理的各种工具和功能。
Talend在G2上的平均得分为4.0颗星,并在Gartner的《数据集成工具魔力象限》报告中被评为“领先者”。作为其中的一名评论者,Jan L.认为:Talend是一个强大的、具有清晰易用界面的通用数据集成工具。
3. Stitch
Stitch是一个开源的ELT数据集成平台。与Talend类似,Stitch也提供了付费的服务版本,应用于更高级的用例、以及更多的数据源。有趣的是,Talend于2018年11月收购了Stitch。
Stitch平台通过提供自助式的ELT和自动化的数据流水线,来简化流程。鉴于Stitch的ELT工具不会自动执行任意转换。因此,Stitch团队建议,转换一旦被添加到数据仓库内部,就应在原始数据之上添加各种分层。
G2上的评论者为Stitch给出了诸如高性能之类的正面评价。一位评论者称赞Stitch为“定价简单、提供内部工作流、且开源易用”。当然,Stitch也存在着一些小的技术问题,以及缺乏对小众数据源的支持。
4. Informatica PowerCenter
Informatica PowerCenter是用于ETL任务的成熟、且功能丰富的企业级数据集成平台。当然,PowerCenter只是Informatica云数据管理工具套件中的一种。
作为企业级、且与数据库类型无关的解决方案,PowerCenter以其高性能、以及能与许多不同数据源(包括各种SQL和非SQL数据库)相兼容而著称。而Informatica PowerCenter的缺点在于:售价过高,且对于小型组织而言,可能由于较难学习与掌握,进而带来技术障碍。
尽管存在着上述缺点,Informatica PowerCenter还是在G2上斩获了4.3颗星,同时被誉为数据集成软件领域的“领先者”。作为其中的一名评论者,Victor C.认为PowerCenter是自己曾用过的、功能最强大的ETL工具。当然,他也抱怨PowerCenter的速度过慢,且无法与Tableau和QlikView等可视化的工具进行很好的集成。
5. Oracle Data Integrator
作为Oracle数据管理生态系统中的一部分,Oracle Data Integrator(ODI)是一个全面的数据集成解决方案。显然,该平台是Hyperion Financial Management和Oracle E-Business Suite(EBS)等其他Oracle产品用户的合适选择。ODI既具有本地版本,又提供了Oracle数据集成平台云。
与其他工具不同的是,Oracle Data Integrator只支持ELT任务,而不支持ETL。而用户对此褒贬不一。同时,由于大部分外围功能都已经包含在了其他Oracle软件之中,因此ODI比其他各种工具更为简单。
目前,Oracle Data Integrator在G2上的平均得分为4.0。作为其中的一名评论者,Christopher T.认为,虽然ODI是众多选项中最强大的一款工具,但是需要经过必要的培训,方可上手。
6. Skyvia
Skyvia是一款可用于大数据集成、迁移和备份的云平台。用户可以用它来为包括Redshift、BigQuery和Azure在内的数据仓库,创建数据管道。Skyvia的最大亮点是:它通过提供无代码式的数据集成向导,以方便新、老ETL用户使用。
Skyvia在G2的用户群中备受欢迎,其评分为4.8。作为其中的一名评论者,David K.认为:即便知识有限,他们仍然可以使用由Skyvia提供的直观且灵活的连接工具,在多渠道零售业务中同步库存。
当然,在使用Skyvia作为ETL工具之前,请事先注意如下三个方面:
- Skyvia主要专注于ETL的提取和加载阶段,其转换功能比较有限。
- 与其他ETL工具相比,Skyvia提供的集成和连接器数量较少。
- 有用户抱怨在遇到技术问题时,其客户支持在效率上存在问题。
7. Fivetran
作为基于云端的ETL解决方案,Fivetran支持与Redshift、BigQuery、Azure和Snowflake等数据仓库的数据集成。Fivetran的最大优势在于提供了丰富的数据源阵列,其中包括约90种SaaS源,以及添加用户自定义集成的能力。
目前,Fivetran在G2上斩获了4.2星。许多用户对其简单性和易用性赞许有加。作为其中的一名评论者,Daniel H.认为:Fivetran可以提供快速、可靠的文档连接,并能够直接连接到新的连接器上。
当然,针对Fivetran从连接器的数量更改为基于消费的崭新定价模式,有用户提出了异议。同时,也有少数用户在技术和客户支持方面遇到过问题。他们认为:Fivetran是一个黑匣子,当出现问题时,不但很难自行诊断,而且难以获取热线支持。
其他值得参考的8种ETL工具
8. Striim
Striim为大数据任务提供了一个实时的数据集成平台。用户能够以约20多种不同的文件格式,集成各种数据源与目标,其中包括Oracle、SQL Server、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等数据隐私法规,因此用户可以使用SQL或Java定义预加载式的转换。
Striim平台主要缺点是:它无法包含任何SaaS源或目标,也不允许用户添加新的数据源。此外,Striim的用户群并不大,目前G2上只有1条评论。
9. Matillion
作为一个云端的ETL平台,Matillion可以将数据与Redshift、Snowflake、BigQuery和Azure Synapse相集成。用户可以通过界面上的简单点击或在SQL中的定义,在Matillion中创建数据转换。
与Striim类似,与前面讨论的其他工具相比,Matillion仅支持约40种SaaS数据源。虽然它在G2处获得了4.2颗星,它的基于虚拟机的时间,而非实际工作量、或正在使用的计算资源的定价模式,让部分评论者们表示不认可。
10. Pentaho
由Hitachi Vantara提供的Pentaho(也称为Kettle)是一种可被用于数据集成和分析的开源平台。用户既可以选择Pentaho的免费社区版本,又可以购买其企业版的商用许可证。与Xplenty类似,Pentaho具有易用的界面,即使是ETL的新手,也可以使用它来构建稳定的数据管道。当然,Pentaho也存在着诸如:模板和技术有限等缺点。
目前,Pentaho在G2上的平均得分为4.3颗星。不过,有用户抱怨:由于在日志记录中缺乏针对错误的详细注释,因此他们很难识别错误的真正原因。
11. AWS Glue
可用于大数据分析任务的AWS Glue,是由Amazon Web Services提供的完全托管式的ETL服务。作为一种端到端的ETL产品,AWS Glue不但减轻了ETL的工作负载,而且能够与AWS生态系统中的其余部分,进行良好的集成。
值得注意的是,AWS Glue是无服务器的。这意味着Amazon会自动为用户配置服务器,并在工作负载完成后将其关闭。AWS Glue通过提供作业调度、以及开发者端点(developer endpoints)等功能,方便易用地测试各种AWS Glue脚本。
目前,AWS Glue不但在G2平台上获得了3.9颗星,而且在X2上被评为ETL工具领域的“领先者”(类似Xplenty)。我们未将其列为前面7大顶级ETL工具的原因在于,它不如其他工具灵活,并且通常更适合那些已经处于AWS生态系统内的用户。
12. Panoply
作为一个自动化的自助式云端数据仓库,Panoply旨在简化数据集成的过程。那些标准的ODBC/JDBC连接、Postgres连接、以及AWS Redshift连接的等数据连接器,都可以与Panoply兼容。此外,用户也可以将Panoply与前面提到的Stitch和Fivetran等ETL工具相连接,以进一步扩展其数据集成的工作流。
在G2上,Panoply已获得了4.4颗星。作为一名评论者,Stacie B认为:Panoply的最大优点是能够轻松地从多个来源导入数据,并能快速地设置程序,与实现数据的加载。
Panoply未被入选七大顶级ETL工具的理由在于:Panoply既是数据仓库,又是ETL解决方案。因此,如果您已经正在使用其他类型的云端数据仓库,并且不打算进行更换的话,则没有必要选用Panoply。
13. Alooma
作为一种云端数据仓库的ETL数据迁移工具,Alooma的主要卖点在于,它自动化了大部分数据管道,以方便用户去关注技术细节,而非结果。
2019年2月,谷歌收购了Alooma,并将其注册仅限于Google Cloud Platform的用户。这意味着任何使用其他数据仓库(如Redshift或Snowflake)的客户,都将无法使用该工具。
尽管如此,Alooma在G2上仍收获了4.0颗星的好评。其中的一名评论者认为:虽然Alooma通过其代码引擎功能提供了各种灵活性,但是其某些关键性的工具栈服务尚未成熟。
14. Hevo Data
作为一个ETL数据集成平台,Hevo Data具有上百种预构建的连接器,可用于连接诸如Redshift、BigQuery和Snowflake等各种数据库,云端存储和SaaS源。用户可以使用Python在Hevo Data中自定义预加载的转换。
Hevo的最大局限性在于,它无法添加自己的数据源,以建立新的连接。此外,Hevo Data的用户群较小,目前在G2上只有6条评论。
15. FlyData
作为一个实时数据复制平台,FlyData的最大优势在于:它仅与Amazon Redshift数据仓库相兼容。也就是说,如果您是Redshift的“骨灰级用户”,那么可以直接使用这款为Redshift量身定制的工具。不过,如果您正在使用其他的数据仓库方案,或者想要保持灵活性,并避免被供应商锁定的风险,那么FlyData就不太适合了。此外,FlyData仅适用于诸如Amazon RDS、Amazon Aurora、MySQL、Percona、PostgreSQL和MariaDB等,少数数据源(其中并无SaaS平台)。
优秀ETL工具的用例
由上可见,没有两款ETL软件工具是完全相同的,它们各有自己的优、缺点。为了让您能够为自己的业务需求,找到最佳的ETL工具,下面我们来讨论每种工具最适合的应用场景。您可以据此进行综合评估与选用。
- Xplenty:适用于日常处理ETL和(或)ELT的任务需求,满足非技术人员直观的拖放界面,以及那些需要多种预构建的集成、且重视数据安全性的项目。
- Talend:适用于偏好开源解决方案的公司,以及需要多种预构建集成的项目。
- Stitch:适用于那些偏好开源的方案,简单的ELT流程,但不想进行复杂转换的用户。
- Informatica PowerCenter:适用于具有大量预算,且对性能要求苛刻的大型企业。
- Oracle Data Integrator:适用于现有的Oracle客户,以及需要处理ELT任务的公司。
- Skyvia:适用于采用无代码解决方案,且不需要执行大量转换的项目。
- Fivetran:适用于需要各种预构建集成,以及通过多个数据仓库来满足灵活性的用户。
- Striim:适用于需要遵守GDPR或HIPAA,且不需添加新的数据源(尤其是SaaS)的项目。
- Matillion:适用于希望使用简单的点击界面,以及有限数据源的公司。
- Pentaho:适用于采用了开源ETL工具的项目。
- AWS Glue:适用于现有的AWS用户,以及需要完全托管式ETL方案的公司。
- Panoply:适用于需要结合使用ETL和数据仓库方案的项目。
- Alooma:适用于现有的Google Cloud Platform用户。
- Hevo Data:适用于需要将Python添加到自己的数据转换任务中,但不需要添加新的数据源的项目。
- FlyData:适用于只需要使用Redshift作为数据仓库的公司。
如您所见,在为自己的团队确定最佳ETL软件工具时,您需要了解项目的特点和使用场景,通过试用与研究,方能发现最佳选择。
原文Top 7 ETL Tools for 2021,作者: Abe Dearmer
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】