3月11日下午,上海健康云出现故障。至晚上19:55 官方回复“由于访问人数较多,但是核酸检测结果仍然能在随申办中查询。”
3月14日早上,通信行程码崩溃,数分钟后恢复正常。
两年多来,健康云、健康码、行程码等共同承担着疫情防控等方面工作,对维护百姓的正常生活、社会的正常运转起着重要作用。
由于全国暂未实现“一码通行”,健康云、健康码、行程码等分别采用不同的服务平台,采集的数据信息与处理机制等方面均存在差异。行程码,主要通过采集手机动态运动轨迹数据,证明居民个人行程。而健康云需要记录与分析医疗卫生、交通等多方面数据信息,承担着疫苗登记与接种、核酸检测、健康证明等众多业务,业务访问量极大。因此,一旦健康云崩溃,将会对众多防疫活动造成影响。
为什么健康云会“崩”?
从“安康码”到“健康云”,健康码的每一次崩溃背后都是一次“流量洪峰”的“侵袭”。
金融行业有“压测”,电商行业有“双十一”,这两大场景下每秒/分钟瞬时的业务访问量往往会达到极值,这个极值又被叫做“流量洪峰”。无论健康码,还是其他应用,往往在设计之初为应对流量洪峰就规划出所需的服务器数量、网络带宽资源等网络基础配套设施。
当然,仅作以上准备远远不够,健康云的业务逻辑极为复杂。首先,数据传输的流程很长。用户通过小程序/APP访问,数据第一步会抵达网关,网关也是公网到政务网的第一道入口,通过这个入口后再实现流量控制、负载均衡等其它功能;其次,用户的行为会影响小程序/APP的访问通畅度。用户进入小程序与APP后会进行刷新或者其它操作,一旦操作失败,会反复进行刷新,这将源源不断地带来新的用户请求,海量的用户请求终会带来海量的数据。
因此,导致健康云“崩溃”的原因非常多,无论是流量洪峰带来的应用服务器宕机,还是其他问题,都需要运维工程师进行实时监测与分析。
如何为健康云提供“健康保障”?
无论是健康云,还是健康码、行程码,保障系统7*24小时可访问对疫情防控十分重要。从金融行业压测到“双十一”重保,天旦在应对“流量洪峰”方面拥有多年实战经验。利用这些宝贵经验,天旦BPC可以构建对健康云等数字化防疫系统的全链路监控体系。通过智能告警、故障定位与分析等功能,天旦BPC在保障防疫业务连续性的同时,为健康云提供“健康保障”。
智能告警,及时发现问题:通过对压测与过往数据的分析,利用阈值与基线设置告警数值,天旦BPC的智能告警功能,可以及时发现故障隐患;
故障定位与分析,一键锁定故障根因:天旦BPC提供业务访问量、响应时间、响应率等关键指标,可视化、实时呈现业务运行情况;通过一键根因分析功能,逐层下钻获取故障节点,定位故障根因;
故障恢复,构建快速响应机制:通过报表导出等功能,对历史(日、周、月)数据进行分析与研判,建立故障响应机制。
目前,国内疫情防控形势十分严峻,“健康云”等数字化应用面临“流量洪峰”等考验。天旦BPC可以为健康云等建立事前告警、事中故障定位与分析、事后故障恢复等标准化运维响应机制,精准保障数字化防疫的顺利进行。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2020-03-09 17:25:58
2020-02-27 16:49:40
2019-09-17 14:17:00
2020-04-03 18:08:49
2022-11-21 11:05:19
甄选10000+数字化产品 为您免费使用
申请试用
评论列表