过去我们对于电视信号不好的解决方案,都有一个共识:拍一拍。
现在我们对于电脑、手机死机的解决方案也有一个共识:重启。
服务器故障怎么办
但是,当我们面对服务器出现故障时,又该做出什么反应呢?如果你要是拍一拍,估计服务器不会给你任何反应,但是你的同事可能会用狐疑的眼神儿看你;如果你立刻重启,你的上司可能会臭骂你一顿。那么服务器故障时,作为专业的技术人员该做出什么反应?
知己知彼
如果你是新人,想要知己知彼,就一定先要搞清楚服务器硬件情况。因为有时候服务器是裸机状态,所以,如果你不了解服务器的硬件情况,了解一下这里的IT架构和具体的硬件信息是很有必要的。诸如网络状态、有没有不间断电源、硬盘是否支持热插拔、服务器是不是HA高可用集群等问题。
摸清表层
即便只是看清表层,我们也需要尽可能多的了解有用信息,例如:服务器何时故障的?故障表现是什么?故障有没有呈现规律性?上一次更新是什么时候,更新了什么等问题。毕竟服务器不是电脑,如果你没搞清楚状况就进行强行关机,很可能造成数据丢失,而且还没解决问题。要记住,服务器是7*24小时开机的存在。
只有了解了服务器故障的基本逻辑,查看了日志等信息,尽可能的了解问题所在,才能给出具体的解决方案。
了解过去
我们常说以史为鉴或者读史使人明志,其中都体现了了解过去的重要性。所以我们要先看一下过去都发什么可什么。查看历史操作记录,可以了解过去有谁登陆了,都执行了那些命令,更多的信息对于你的判断准确性由很大的提升。但是,作为admin用户,在查看历史记录时,要注意不要利用自己的权限去侵犯别人的隐私。
看清现状
做过了以上的准备,你还需要检查一下现在有没有其他人在线。如果有人正在在服务器上工作,而你却莽撞的对服务器进行其他更改,那你可能要面临一个很糟糕的情况。除了看谁在线之外,你还可以了解一下谁登录过。另外,还要看清现在有哪些程序正在运行,并作出相应的调整。
然后你就可以根据自己的判断,对服务器进行修复了。
切记,在服务器上,拍一拍和万能的重启都是莽撞之举,在服务器出现故障时,要了解服务器故障的具体原因,方能对症下药。