非结构化数据是增长最快的数据类型之一。随着组织创建并尝试存储逐年增加的数据量,这自然会引发一个问题:非结构化数据的最佳存储是什么?
非结构化数据是不符合传统数据库格式的信息。电子邮件和文档形式的文本以及多媒体(例如照片、视频和音频文件)是非结构化数据的常见示例。在寻找存储非结构化数据的优秀方式时,NAS与对象存储是两个主要选择。
NAS与对象存储
NAS已经存在了几十年,它在用户和他们的文件之间放置了一个目录和文件夹的分层系统。这种方法使组织能够巧妙地对单个文件进行分类以供以后使用。
另一方面,对象存储不会对数据强加文件系统范式。相反,对象系统使用与底层数据元素分开存在的元数据表。元数据表存储描述基础数据的属性,例如文件名、创建日期、用户ID和可以从中检索数据的位置。
数据存储管理:它是什么以及为什么它很重要?
这两种方法各有利弊,尤其是在非结构化数据存储的情况下。而且,在NAS与对象存储的争论中,适合您组织的存储类型还取决于支持的工作负载类型。
优点和缺点
使用NAS进行非结构化数据存储的主要优势在于它是有组织的,至少在您创建一个体面的文件夹结构的情况下,它是用户友好的。NAS也无处不在,有许多支持NFS或SMB存储的服务。此外,它相对较快,并为数据快速变化的应用程序提供支持。
另一方面,可扩展性并不是NAS的强项。随着功能更强大的横向扩展产品的出现,这种情况正在发生变化,但NAS仍然没有接近对象存储系统固有的可扩展性潜力。
对象、文件和块存储比较
事实上,规模是对象存储系统的最大好处。增加容量是一项简单的练习,一旦超出了添加硬件的范围,它就几乎看不见了。原因:许多对象存储系统向外扩展而不是向上扩展。您所要做的就是添加另一个节点,然后告诉管理工具将新节点添加到集群中。幕后发生了一些神奇的事情,集群现在拥有更多的存储容量。
性能是传统对象存储的挑战。但是,随着更新的对象存储产品,这种情况也在发生变化。对象存储的另一个缺点是元数据和对象数据都必须更新。因此,如果您拥有快速变化的数据,则该过程可能需要比NAS更长的时间。此外,尽管存在网关和一些标准化的访问协议,例如AmazonS3,但对象存储标准并不像它们基于文件的表亲那样一致。
NAS和对象存储系统的特点
尽管文件和对象存储在逻辑级别上是截然不同的方法,但实际的存储子系统可以共享大量特性和功能。企业用户可以考虑一系列NAS或对象功能,例如:
- 数据分层和放置。NAS和对象存储系统可以使用文件标记和对象元数据策略将数据组织成层——将更重要或经常访问的数据放入更快的存储中,同时将不太关键的数据降级到成本较低的近线磁盘。
- 全局命名空间。创建“命名空间”从相应的应用程序中抽象出存储,使应用程序能够在任何合适的NAS或对象存储系统上查找和访问数据,作为无缝存储可扩展性的关键手段。
- 高性能和多租户。存储系统必须能够同时处理用户或应用程序,而不会引入可能导致应用程序延迟或错误的延迟。这需要内部处理能力——通常具有并行访问磁盘的能力——以及合适的网络带宽。
- 数据保护。考虑NAS或对象存储设备的数据弹性功能,例如RAID、复制或分布式/集群存储方法。数据保护消除了任何单点故障——导致数据丢失——并且可以成为业务连续性和合规性的关键部分。
- 灵活的访问。NAS和对象存储系统可以提供各种访问数据的方式,例如表示状态传输(REST)或实体对象访问协议(SOAP)API,以及合适的存储协议,包括用于文件存储的CIFS和NFS,用于存储的Lustre或PanFS对象存储,如果存储系统支持大数据分析,甚至是Hadoop分布式文件系统。
- 管理选项。NAS和对象存储系统管理可以包括多种功能,包括自我配置、自动修复和自动重新平衡(即文件重定位以分散磁盘访问)功能。
- 云界面。一些文件和对象存储系统可以提供可以支持私有云或与公共云存储产品互操作的云接口,以构建无缝的云/本地存储基础设施。
企业中的NAS和对象用例
NAS和对象存储具有相同的基本目的:为企业用户和应用程序存储数据。但是这两种技术的优点和缺点使它们各自适合不同的用途。
NAS提供了一种更传统的数据存储方法,非常适合各种任务,包括必须存储或访问文件数据的任何地方,例如:
- 流式传输或检索任何形式的媒体——例如图像、视频、音频和文本——表示为文件而不是非结构化对象;
- 存储用于分析的原始数据文件;
- 存储数据备份或使用NAS作为文件复制目标;
- 运行一系列开源业务应用程序,例如SugarCRM、VtigerCRM、Orange HRM、Synology Office、Mattermost(聊天),甚至各种电子邮件服务器、Web服务器和内容管理系统(如WordPress)——几乎任何业务应用程序都会阻止-不需要基于SAN的存储;
- 存储、访问和托管虚拟机;
- 使用NAS在私有云中提供文件存储,通常通过NAS制造商的基于浏览器的UI;
- 将NAS存储用于测试和开发任务,例如基于Web或基于服务器的应用程序。
对象存储也存储数据。但是对象的扁平(非分层)、非结构化、基于元数据的性质使得对象存储对企业中的各种存储应用程序具有吸引力,包括:
- 流式传输或检索任何形式的媒体——例如图像、视频、音频和文本——表示为非结构化对象而不是传统文件;
- 存储用于分析的数据,其中对象可以是非常大的数据库,因为对象存储通常是庞大且高度可扩展的存储设施的基础,例如数据仓库甚至数据湖部署;和
- 存储数据备份,因为对象存储通常是复制或分布式的,因此对象存储对于仅需要不频繁访问的任务(例如DR、备份和长期归档存储)具有高度弹性。
云中的NAS和对象存储
随着越来越多的用户和应用程序使用公共云,提供商正在提供一系列存储服务,旨在模拟文件和对象——以及块和特定于应用程序的——存储资源,可以提供全球可访问性、高持久性和高弹性。
NAS。基于文件的存储服务包括:
- 亚马逊EFS
- Azure文件
- Google文件存储
对象。基于对象的存储服务包括:
- 亚马逊S3
- AzureBlob
- 谷歌云存储
刚开始使用公共云服务、开发混合云基础架构或需要持续的本地存储需求的组织可能会考虑选择与公共云兼容的存储系统。
硬件/云兼容性的关键通常在于存储系统的操作系统平台。例如,Cohesity SmartFiles支持各种Amazon服务,包括S3、GovCloud、Snowball、EFS、FSxfor Windows FileServer和Amazon FSxfor NetApp ONTAP。另一个例子是,NetApp ONTAP9等NetApp平台支持Google Cloud Storage。
必须根据存储容量、外形尺寸(塔式或机架式)、网络和I/O性能、弹性特性和可扩展性等因素的要求仔细选择存储系统。
非结构化数据存储的底线
那么,在NAS与对象存储方面,哪种方法更胜一筹?一般来说,如果应用程序包含快速变化的数据和简化的访问,NAS可能是最佳选择。如果工作负载的存储更像是存档,并且不需要与应用程序进行非常高水平的本机集成,那么对象存储就是选择。
规模也在NAS与对象存储决策中发挥作用。NAS系统的扩展范围差异很大,因此在某些时候,可能会超出选择的NAS产品的限制。