1、DataMelt
DataMelt或DMelt是数据分析和数据可视化的开源软件,可用于数值计算、数学、统计、符号计算等。该平台是Python、Ruby、Groovy等各种脚本语言的组合,还有其他Java软件包。它能够制作高质量的矢量图形图像(SVG,EPS,PDF等),这些图像可以包含在LaTeX和其他文本处理系统中。
2、scikit-learn
scikit-learn是Python库,用于数据分析和数据挖掘,它建立在Matplotlib、Numpy、SciPy的基础上,提供了降维、交叉验证集成、参数调整的方法等。
3、Apache Mahout
Apache Mahout是分布式线性代数框架,它能够让使用者以更快的方式实现其算法,构建了一个可快速创建、可扩展、性能驱动的机器学习应用程序的环境。它的具体优势有:允许应用程序迅速分析大型数据集;支持数学表达式Scala DSL;支持多个分布式后端;适用于CPU/GPU/CUDA加速的模块化本机求解器。
4、Knime
KNIME Analytics Platform基于Eclipse,用Java编写,是用于承载数据科学任务的开源软件。它是一种多语言软件开发环境,包括一个集成开发环境(IDE)和一个可扩展的插件系统。Knime允许从2000多个节点中进行选择来构建工作流程;无需编程就可使用直观的拖放式图形界面,创建可视化工作流程。
5、ELKI
ELKI用Java语言编写,是一个开源数据挖掘软件。它能够研究算法,聚类分析和离群值检测中的无监督方法;提供数据索引结构,显著提高性能;方便进行扩展;提供大量可高度参数化算法。
6、Rattle
Rattle用R语言编写,是用于数据挖掘的开源GUI。它能够显示数据的统计和可视摘要;可以转换数据建模;能以图形方式显示模型的性能,并对新数据集进行评分以部署到生产中;还提供了可观的数据挖掘功能;通过图形用户界面进行的所有交互都被捕获为R脚本,可以独立于Rattle界面在R中轻松执行;该工具可用于学习和发展R的技能,然后在Rattle中构建初始模型。