直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战
作为拥有12年+大型保险公司运维项目管理和实施经验的资深技术顾问,Angu Gao曾连续多年服务太平洋保险、太平人寿、天安财险、大地保险等多家大型保险公司,也多次亲身经历保险业的“开门红”等特大营销活动。
曾经有一次“开门红”活动中,就发生了因为网络慢问题导致服务器最终宕机的情况。事情的经过是这样的(以下为直播文字实录):
某次开门红活动的晚上,我接到运维人员的电话说weblogic中间件宕机了,重启也解决不了,让我帮忙想想办法。当时首先想到的是从应用层面去排查问题,结果发现中间件本身一切正常,没有发现任何问题。所以只能用最笨的方法,顺着访问路径一级级往前排查:
◎排查中发现了一个异常情况,那就是整个系统的访问量巨大;
◎往前推发现,web服务器也接受了很多请求;
◎再往前发现,互联网带宽被占得很满;
◎当时第一反应是想是不是发生攻击了?然后逐步排查防火墙、IPS等安全设备,发现也没有问题;
◎没有头绪之下,只好又重新把日志全部看了一遍,发现在所有访问中提交这个环节的操作占比过高,远超出正常占比水平;
◎抽查部分用户访问记录后,最终找到了问题
问题分析:
1、网络没有规划好,带宽相对不足
2、正值运营商业务高峰期,导致网络较平时要慢
3、由于网络较慢,保险经纪人提交订单不会立即显示成功,此时用户往往会重复点击提交,导致一份保单重复提交多次,最终拖垮了服务器
总结:
一个看似简单的网络慢问题,最终呈现的故障状态却是服务器宕机。这是通常情况下很少遇见的,也给运维排障工作带来较大挑战。而之所以会出现这种情况,是因为“开门红”等特大营销活动具有用户量巨、大交易额巨、大领导更关注等特点,当量的改变足够大,往往会带来质的变化。
例如,在用户量正常情况下(例如100个),可能5%的用户(5个)出问题,影响也不会太大。但是用户量巨大的情况下(例如10000个),哪怕1%的用户(100个)出现问题,影响也是巨大的。
就像上文案例中,应用层面出现问题,但根源却在网络层面。可见,想要做好“开门红”等特大营销活动的保障,光靠某个部门也无法实现,需要网络、业务等运维各部门的通力合作,从各自保障环节出发,才能从整体上保障活动期间系统的顺利运行。
假设,保险公司特大营销活动正在火热进行中,突然接到分公司用户反馈“网络慢”,运维各部门该从何处入手开始检查呢?对于网络运维和应用运维而言,有没有更加高效的故障定位和排查手段呢?
– end –
关注天旦公众号
跟旦旦一起,
让运维稳定无忧,
运营做你所想。

