[et_pb_dcsbcm_divi_breadcrumbs_module homebreadcrumbtext="首页" hide_currentbreadcrumb="off" _builder_version="3.29.3" _i="0" _address="0.0.0.0"][/et_pb_dcsbcm_divi_breadcrumbs_module]

直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战

by | Jun 2, 2020

近日,天旦资深技术顾问Angu Gao在线与大家分享了《如何应对保险特大营销活动带来的运维挑战》,针对保险“开门红”等特大营销活动中,运维部门面临的挑战及对应解决方案展开了分享。

作为拥有12年+大型保险公司运维项目管理和实施经验的资深技术顾问,Angu Gao曾连续多年服务太平洋保险、太平人寿、天安财险、大地保险等多家大型保险公司,也多次亲身经历保险业的“开门红”等特大营销活动。

曾经有一次“开门红”活动中,就发生了因为网络慢问题导致服务器最终宕机的情况。事情的经过是这样的(以下为直播文字实录):

某次开门红活动的晚上,我接到运维人员的电话说weblogic中间件宕机了,重启也解决不了,让我帮忙想想办法。当时首先想到的是从应用层面去排查问题,结果发现中间件本身一切正常,没有发现任何问题。所以只能用最笨的方法,顺着访问路径一级级往前排查:

◎排查中发现了一个异常情况,那就是整个系统的访问量巨大;

 

◎往前推发现,web服务器也接受了很多请求;

 

◎再往前发现,互联网带宽被占得很满;

 

◎当时第一反应是想是不是发生攻击了?然后逐步排查防火墙、IPS等安全设备,发现也没有问题;

 

◎没有头绪之下,只好又重新把日志全部看了一遍,发现在所有访问中提交这个环节的操作占比过高,远超出正常占比水平;

 

◎抽查部分用户访问记录后,最终找到了问题

问题分析:

1、网络没有规划好,带宽相对不足

2、正值运营商业务高峰期,导致网络较平时要慢

3、由于网络较慢,保险经纪人提交订单不会立即显示成功,此时用户往往会重复点击提交,导致一份保单重复提交多次,最终拖垮了服务器

总结:

一个看似简单的网络慢问题,最终呈现的故障状态却是服务器宕机。这是通常情况下很少遇见的,也给运维排障工作带来较大挑战。而之所以会出现这种情况,是因为“开门红”等特大营销活动具有用户量巨、大交易额巨、大领导更关注等特点,当量的改变足够大,往往会带来质的变化。

例如,在用户量正常情况下(例如100个),可能5%的用户(5个)出问题,影响也不会太大。但是用户量巨大的情况下(例如10000个),哪怕1%的用户(100个)出现问题,影响也是巨大的。

就像上文案例中,应用层面出现问题,但根源却在网络层面。可见,想要做好“开门红”等特大营销活动的保障,光靠某个部门也无法实现,需要网络、业务等运维各部门的通力合作,从各自保障环节出发,才能从整体上保障活动期间系统的顺利运行。

假设,保险公司特大营销活动正在火热进行中,突然接到分公司用户反馈“网络慢”,运维各部门该从何处入手开始检查呢?对于网络运维和应用运维而言,有没有更加高效的故障定位和排查手段呢?

– end –

天旦助力鄞州银行业务性能监控项目,探索农商行金融科技创新

天旦与鄞州银行展开深度合作,通过部署智能运维产品为其业务系统运行提供全链路监控方案。

天旦荣登2020全球金融科技创新TOP50

疫情加速金融产业变革,运用科技解决金融产业长期痛点是推动金融科技发展的核心驱动力。

天旦NPM荣获2020AIOps领域年度影响力产品

将大数据、云计算等先进技术与人工智能相结合,可以促进产品迭代与升级,助力更多企业实现数字化转型。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。

× How can I help you?