可扩展系统是能够处理工作负载和用户需求快速变化的系统。可扩展性是衡量该系统通过添加或移除资源以满足需求的响应能力的标准。接下来的讨论将介绍可扩展性的不同类型,并说明一些重要的策略和挑战,以便扩展现代分布式系统。
可扩展性类型
垂直扩展: 指通过向使用的机器添加能力来增加系统的容量。这也称为向上扩展(Scaling Up)。这种技术专门针对可用节点内资源(CPU、内存、存储)的改善。垂直扩展在资源消耗型任务或具有紧密耦合组件的应用程序中非常有用。然而,这种可扩展性最终受限于某些重要节点的核心容量。可以通过升级服务器硬件或增加RAM分配作为垂直扩展技术的经典示例。
垂直扩展示例: 想象你有一个云数据库应用程序,它已经达到了其运行服务器的限制:一个具有8个虚拟CPU和32 GB内存的GCP实例。要垂直扩展该数据库,你可能会将其迁移到具有32个虚拟CPU和64 GB内存的实例上。
水平扩展: 这个术语指的是向系统添加更多机器(节点),从而将工作负载分解为更小的部分,因为系统中每台机器都可以承担这些工作。也称为向外扩展(Scaling Out)。水平扩展简化了:
- 性能提升
- 可用性
- 故障容错改进
在这种情况下,实施的一些常见改进包括增加Web服务器以更好地处理流量或增加更多数据库节点以提高数据处理能力。
水平扩展示例: 再次想象,我们有一个云数据库应用程序,它已经达到了其运行服务器的限制:一个具有8个虚拟CPU和32 GB内存的GCP实例。要水平扩展该数据库,我们可能将其分区到两个附加服务器节点,每个节点具有8个虚拟CPU和32 GB内存。
垂直扩展与水平扩展
下面是垂直扩展与水平扩展之间差异的可视化演示。
垂直扩展的优点
- 简洁易实施 — 向单个机器添加资源比设置和管理多个资源更容易、更快捷。
- 响应时间更快 — 单个机器处理所有任务,因此不会有通信开销。
- 成本效益 — 升级单个硬件组件可能比购买和管理新服务器便宜得多。
垂直扩展的限制
- 高需求应用 — 最终,你将达到单台机器可升级的物理极限。
- 高可用性需求 — 单一故障点可能会导致整个系统崩溃。
- 分布式系统 — 对于地理上分散的多台机器,垂直扩展的管理效率不高。
水平扩展的优点
- 提高可扩展性 — 增长的工作负载可以轻松处理,只需添加更多机器。
- 改进故障容忍 — 如果一台机器发生故障,你可以使用其他可用机器。
- 更好的负载平衡 — 任务可以在多台机器之间分配,以实现高效的资源利用。
水平扩展的限制
- 增加复杂性 — 管理多台机器可能会非常复杂。
- 更高成本 — 添加更多机器可能会增加基础设施成本。
- 潜在开销 — 机器之间的通信和协调可能会带来开销,并可能影响性能。
水平扩展的挑战
- 管理复杂性: 需要适当的监控、配置和编排工具,以维持更大的节点池。
- 数据同步: 在水平扩展的节点之间保持数据一致性会增加开销。
- 网络开销: 节点之间的通信增加可能导致网络延迟和性能问题。
应对可扩展性挑战
负载均衡器: 负载均衡是将网络流量均匀分配到支持应用程序的资源池中的方法。负载均衡会在应用服务器与其访客或客户端之间引导和控制互联网流量。因此,它提高了应用程序的可用性、可扩展性、安全性和性能。
用户请求分发到Elasticsearch集群的负载均衡器
分布式数据库: 将数据分区到多个节点,以实现并行处理和改进资源利用。分布式数据库解决了许多问题,例如可用性、故障容忍、吞吐量、延迟、可扩展性以及使用单台机器和单个数据库时可能出现的其他问题。
异构分布式数据库
无状态服务: 设计微服务,尽量减少对共享状态的依赖,简化可扩展性和故障容忍性。
网络延迟考虑
网络中数据通信的延迟会显著影响可扩展性。以下因素会导致延迟问题:
•物理距离•网络拥堵•硬件限制
缓解策略包括优化数据路由、负载均衡、边缘计算、内容分发网络(CDN)和协议优化。
资源管理
在多个节点之间高效分配资源对于最佳性能至关重要。静态与动态分配策略,加上负载均衡,确保公平的资源分配,防止瓶颈。
负载均衡策略
轮询(Round Robin): 流量被发送到第一个可用的服务器,而不考虑其当前的工作负载和活动连接。该服务器处理请求后,负载均衡器将其移动到队列底部。
最少连接(Least Connection): 将流量路由到活动连接最少的服务器。
IP哈希(IP Hash): 根据客户端IP地址分配请求,允许持久的服务器连接,以改善用户体验。
权重算法(Weights Algorithm): 将更多请求分配给处理能力较强的服务器,从而优化性能。
缓存
将频繁访问的数据临时存储在离用户更近的地方,可以减少检索时间并减轻后端服务器的负担。内存缓存(RAM)、磁盘缓存(SSD)和分布式缓存提供不同的性能和可扩展性好处。
数据库分片
通过在多个节点之间横向拆分数据库的行或纵向拆分表,改善性能和可管理性。以下是特定数据分布要求的分片策略:
•基于键(Key-based)•基于范围(Range-based)•基于地理位置(Geography-based sharding)
可扩展性指标
吞吐量(Throughput): 指示系统处理请求的速度(TPS、RPS、数据单位/秒)。吞吐量慢表明存在瓶颈或资源不足。
响应时间(Response Time): 系统提供响应所需的时间。响应时间增加指向低效率或负载较重的节点。
资源利用率(Resource Utilization): 监控CPU、内存、存储和网络带宽的使用百分比。由于资源的最佳利用,性能和成本效益也得到提升。
系统设计的可扩展性不是普遍适用的。理解水平和垂直扩展的权衡、实施必要的技术,加上对网络延迟、资源管理和数据一致性的谨慎使用,是开发足够强大以应对日益增长需求的系统的关键要素。通过采用上述策略,并确保跟踪相关的关键性能指标,系统设计者可以保证他们的系统能够在持续增长和变化的状态下继续运行和演变。