服务器故障是一个会影响所有组织类型和规模的常见问题,服务器停机可能包括数天,而系统无法访问关键业务数据。这可能导致运营问题、服务中断和维修成本。
故障的潜在原因可能源自服务器硬件、软件或数据中心设施。如果组织了解可能导致服务器故障的原因,则可以在问题发展之前避免出现问题并完全避免停机,但是,如果确实发生服务器故障,则最好制定应急计划。
什么会导致服务器发生故障?
如果收到警报或发现有故障,解决服务器故障的第一步是确定服务器发生故障的方式和原因;组织操作的速度可能是停机时间和分钟和天之间的差别服务器故障的常见原因包括:
- 过热。如果服务器的温度过高,则可能导致性能下降或完全故障。
- 硬件问题。有时,硬件组件会损坏。这可能是由于实际组件的故障,例如电池故障或磁盘故障,冷却系统故障或设备的使用寿命。
- 软件问题。过时的操作系统可能会在高流量的操作下崩溃,未经审查的补丁程序可能会导致错误或数据损坏。软件升级和更新也可能失败并导致新问题。
- 系统过载。高峰流量时段和完整的服务器日志可能导致系统过载和故障。
- 网络攻击。缺乏网络安全性或过时的不受支持的操作系统可能会使服务器容易受到网络攻击的攻击,这些攻击可能会使服务器瘫痪或崩溃。
- 自然灾害。地震、火灾、洪水和雷暴雨可能对网络系统造成严重破坏,并导致服务中断。
如何防止常见服务器故障
持续不断的重新引导和突然的缓慢指示服务器有故障。组织越能清楚地看到这些迹象,就可以更快地采取行动。服务器监视软件可以帮助组织保持服务器状态,并密切监视关键系统,并获得任何潜在问题的警报。
除了监视工具集外,还可以执行预防性维护步骤,以确保服务器正常运行和健康。
确保优秀环境温度。服务器需要适当的通风和温度控制,以免过热。检查内部和外部表面上是否积有灰尘,并根据需要调整温度设置。
进行日常维护。硬件问题往往是最难预测和预防的,因为它们可能是随机发生的。请注意每台服务器的寿命,执行例行磁盘检查并定期更新/升级系统。时间到了,需要完全更换陈旧的零件或机器。预测分析还可以帮助确定零件何时可能发生故障。
定期安装更新。定期安装软件,操作系统更新和补丁。这样可以保持性能,并保护服务器免受容易利用的软件漏洞的侵害。
维护严格的访问控制和详细的事件日志。人为错误几乎是不可能消除的。自动化可以很大程度地减少人为错误,但是仍然需要人为干预。为了降低风险,请严格记录谁可以访问服务器机房和管理软件。组织还应该保留详细的事件日志并定期对其进行检查。
监视性能趋势。通过持续的性能监视检查,组织可以更好地预测高峰期所需的资源并确定性能低下,这可能表示即将发生故障。这些趋势还可能揭示潜在的硬件和软件问题或需要额外散热的服务器机房区域。确保维护日志文件,清空回收站,删除临时文件夹中的文件,以及对硬盘驱动器任务进行碎片整理,以保持性能水平并避免系统过载。
制定服务器应急计划。冗余是防止服务器故障导致停机的重要组成部分。服务器应急计划应建立可用的辅助硬件,例如多个电源、冗余内存和备份服务器。
设计灾难和数据恢复计划。如果发生自然灾害或安全漏洞,灾难恢复计划和数据恢复计划将使组织免于长时间的停机和灾难性的数据丢失。对于最坏的情况,制定备份计划至关重要。
如何解决服务器故障并从中恢复
即使服务器进行了预防性维护,即使服务器出现故障,也可以采取一些步骤有效地进行恢复。除了重新启动之外,还可以使用可视提示和诊断软件来缩小可能原因的范围。
一旦确定了根本原因,就可以切换到备份服务器,并采取必要的步骤修复电脑故障。