审校 | 孙淑娟
开发人员和公司在数据库方面面临比以往更多的选择。为项目选择合适的数据库可以节省写入和查询数据的时间。由于许多公司处理更大的数据集来构建越来越智能化和自动化的系统,效率是关键。对于许多工作负载而言,使用时间序列数据库是明智的选择:可以节省时间和存储空间。
1.时间序列数据有何不同?
时间序列数据是任何带有时间戳的度量指标。它包括多种变量,从天气模式到CPU使用率,不一而足。它常常来自需要做出实时决策的传感器、系统或应用程序。这些数据对于了解过去的表现和创建模型以预测未来的结果都至关重要。这些计算中涉及的数据量会迅速增加,避免将资源耗费在低效数据架构上很重要。
时间序列数据库旨在处理典型的时间序列工作负载。它们经过优化,可衡量一段时间后的变化,而不是数据点之间的关系。两种主要的时间序列数据是度量指标和事件,度量指标是定期获取的,事件则是因外部事件或用户测量而不定期获取的。时间序列数据库能够同时处理度量指标和事件,能够取得事件数据平均值,并将事件转换为度量指标,这点很重要。
2.存储数据
一种好的数据库需要安全高效地存储数据。用户需能够快速向数据库写入数据,并确信它可以处理计划存储在其中的数据量。时间序列数据可能有巨大的容量,需要构建存储它的数据库以适应这种情况。时间是线性的,时间序列数据库可以通过将新数据附加到现有数据来利用这一点。它们经过优化,可以以最常用的方式快速写入时间戳数据,从用户开始写入数据的那一刻起就节省时间。
时间序列数据库还可能内置了生命周期管理功能。开发人员或公司起初收集和分析非常详细的数据很常见;随着时间的推移,他们希望在不占用太多存储空间的情况下,存储描述趋势的更小、下采样的数据集。时间序列数据库考虑到这一点,可以根据每个应用的需要自动聚合和删除数据。如果开发人员使用更基础的数据库,常常需要创建新的系统,以这种方式管理数据。有了时间序列数据库,这一点得到了满足,开发人员可以专注于应用程序。
时间序列数据库还需要易于扩展。比如在物联网使用场景中,随着更多的传感器添加进来、项目不断扩大,数据急剧增多。这在时间序列工作负载中很常见,用于这些项目的数据库就需要能够适应这一点。
3.查询数据
使用时间序列数据库还可以缩短时间序列工作负载的查询时间。处理时间序列数据的最常见的事情之一是,在很长一段时间内对数据进行总结。在使用行和列来描述不同数据点的关系的典型关系数据库中存储数据时,这种查询非常慢。而旨在处理时间序列数据的数据库可以大大提高处理查询的速度。时间序列数据库还可能拥有内置的可视化工具或高级功能,以简化常见类型的时间序列分析。
4.选择一种时间序列数据库
外面有几种时间序列数据库值得探究。就本文而言,我们关注领先的时间序列数据库InfluxDB。InfluxDB为数据分配度量指标名称和时间戳,并为数据值和元数据使用键/值对。它将度量指标名称和标签集保存在倒排索引中,这加快了查询速度。用户可以在一个时间范围内基于度量指标、标签及/或字段编写查询,并以毫秒为单位接收结果。单单一台InfluxDB服务器每秒可以处理200余万次写入。与Cassandra等NoSQL数据库相比,InfluxDB写入数据的速度提高了4.5倍,使用的存储空间少2.1倍,返回查询的速度提高了45倍。
数据库可谓是许多应用系统的支柱,处理时间序列数据库中的时间戳数据为开发人员节省了时间和存储空间。为某种应用选择合适的数据库可以让开发人员专注于构建很酷的项目,而不是在开始着手之前花时间来管理架构。
原文链接:
https://thenewstack.io/why-use-a-purpose-built-time-series-database/