人们想象一下这样一个世界:电视台可以在电视剧第一集播放结束之前就准确预测其表现;公用事业公司可以通过分析家用电器的传感器的数据,帮助居民减少能源支出;或者,运输公司可以通过实时跟踪包裹来优化运输路线和燃料消耗。
这种情形是不是太超前了?事实上,如今差不多可以实现。
移动应用、全IP无线网络、在线商务、销售点系统、社交媒体的兴起,以及从交通监控到库存管理等各方面的传感器的使用,都会产生数据,如果管理得当,这些数据可以为推动商业决策提供关键的信息和情报。这些数据大多是动态收集的,如果能迅速采取行动,就能为企业提供独特的竞争优势,提供更多的业务机会,并解决出现的问题。
但是,由于数据量巨大,速度不断提高,也推动了网络需求的极限。网络每时每刻都在处理数据。但如果把“大”这个词放在“数据”前面,网络管理员和首席信息官就必须面对很多全新的挑战。
改变数据流
如今的数据无疑正在发生变化,数据量也正在呈指数级增长。数据关系已经从简单和已知走向复杂和未知,数据模型已经从固定模式类型转移到无模式类型。数据来源已经从简单的数据输入变成了来自各种来源的实时流,包括手持设备和机器传感器。
大数据的形式尤其多样。例如在网络中,通话记录看起来与信用卡交易不同。与传统应用中的结构化数据不同,大数据包括半结构化或非结构化数据,如文本、音频、视频、点击流、日志文件,以及测量和传输地理和环境信息的传感器的输出。
大数据环境改变了数据在网络中的流动方式。大数据产生的东西方向流量或服务器之间的流量远远大于南北或服务器到客户端的流量,而且对于每一次客户端交互,可能会有成百上千的服务器和数据节点交互。应用程序架构也相应地从集中式模型发展到分布式模型。这与过去20年建立的传统客户机/服务器网络架构背道而驰。
大数据对网络的影响
大数据系统从各种来源提取数据,运行在分布在多个网络节点上的服务器集群上。这些集群以并行的向外扩展方式运行任务。流量模式可以从1对1(电话)、1对多(电视节目)、多对1(音乐会观众)和多对多(CB无线电),这是并行运行的多个节点之间的单播和多播流的组合。网络管理员需要处理这种流量模式的组合,其中一些模式创建一个流,一些模式创建多个流。
此外,当数据被提供给计算节点时,它会产生大量的网络流量。分布式节点之间的数据洗牌和排序操作需要快速和可预测的传输。虽然分析系统使用直接附加的存储进行处理,但中间存储阶段的数据。
在分析过程中,数据需要在网络中移动和有效地操作。随着新的数据集的增长和源的添加,工作负载也会增长。快速增加产能的需求也是如此。因此,在网络架构中优先考虑本地、高性能、水平可扩展性和直接服务器节点到服务器节点的连通性非常重要。
对新的网络模式的需求
一种设计模型包括构建在低端硬件上,并让分析软件对网络问题做出反应,例如重新启动由于拥塞而超时的作业。该模型用于非实时处理,即完成时间不重要,数据主要来自一个来源。
另一个设计模型涉及构建基于硬件的系统,该系统提供确定性性能,以确保连续处理。该模型用于对来自多个来源的数据进行近实时分析。
与此同时,实时大数据系统受益于网络节点以任意对任意模型相互连接的拓扑结构,节点之间只进行单一跳跃,为处理多个大数据流提供了一个专用系统,具有低损耗和确定性性能。交换结构可以提供这种模型。
交换结构提供了整体系统带宽和性能的优势,特别是减少延迟。位置独立性允许集群和数据从架构中的任何位置获得最佳性能。这种架构还可以无缝地将新数据源合并到集群中,而无需重新连接,并极大地简化了系统的扩展。它提供了收敛性,允许服务器集群和存储区域网络跨一个网络进行通信。资源作为一个实体进行管理,策略可以很容易地跨整个交换基础设施应用。
实施大数据解决方案
大数据为企业提供了前所未有的获取和分析数据的巨大机会。当IT组织开始测试和开发他们的解决方案时,网络管理员必须考虑这些技术对他们的服务器、存储、网络和操作基础设施的影响。企业如何才能最好地开发新的基础设施来利用和分析不断增长的大数据流?在开发网络拓扑结构时考虑以下问题:
- 数据流的分析是实时进行的吗?
- 是否有多个数据源,它们是静态的还是流动的?
- 如果试点成功,集群需要有多大?
- 增加更多的产能有多容易和快速?
- 大数据应用需要与其他应用集成吗?
回答这些问题将有助于构建讨论框架,它们将说明基础设施将如何影响数据中心架构和互连需求。
大数据使企业能够制定新的战略,提供实时业务分析和新的业务洞察,从而推动业务的发展。然而,随着企业看到的快速变化,有必要考虑为未来的业务需求提供规模、性能和空间的关键技术,以满足最高级别的投资保护、业务敏捷性和上市时间。