实践丨天旦BPC服务水平监测告警分析操作指南

来源: 云巴巴 2021-12-16 14:05:33

作为业务的守护者,也许你经常会遇到同一种情况:每当业务问题爆发时,可能你接到了投诉电话,也可能收到了应用异常的短信提醒。然后,你会召集应用链路上的每家厂商工程师来集中排查生产问题。厂商陆续抵达现场之后,大家会先各自查看自家设备的日志log及其监控手段,从路由器、防火墙、SSL、负载均衡、中间件、服务器、数据库等等层层深入。先抛开各家厂商到达问题现场的时间不谈,当你向厂商工程师们阐述清楚问题现象,并顶着压力耐心等待他们从Ping、Traceroute再到抓包分析之后,最终会收到同一个结论:“这不是我们的问题”。

那么问题来了,那到底是谁的问题呢?没有依据,你很难辩驳厂商的分析结论,也无从找到解决方案。但领导的要求是不变的:在最短的时间内解决问题。于是,你陷入了两难。

图片

现在有一种从天而降的“掌法”,能够快速帮你定位业务故障的问题根源,你学还是不学?

天旦BPC“五大场景化告警”之

服务水平监测告警

天旦BPC“五大场景告警监测”覆盖了绝大部分金融应用交易异常事件,而“服务水平监测告警”,则是BPC在用户实际应用场景中被最频繁使用的告警场景。通过服务水平监测告警功能,用户可以实时监控分析高频关键应用交易,在应用交付链上自动定位故障根源节点,快速找出影响故障发生的维度和维度值,并一键形成告警成因分析报告,帮助用户改善应用性能问题,极大地缩短了排障周期,同时节省了人力功耗成本。

本文将以“用户真实场景”为例,详细介绍当应用系统出现生产问题导致服务水平监测告警时,如何操作BPC告警分析模块,快速定位问题发生的根源。以此,帮助用户按照同样的步骤,能够在告警发生时,独立完成问题的分析操作。

服务水平监测告警使用场景

服务水平监测告警适用于对业务应用有明确服务水平要求的场景。(阈值告警)

(BPC应用性能中心---告警设置---新建)

服务水平监测告警用法示例

如图所示,我们可以根据业务的历史服务水平,设置告警的阈值范围和告警级别,比如:

  • 每分钟的交易量大于1000笔,且每分钟交易平均响应时间均高于300ms,持续2分钟,被认为服务水平不达标,需要触发告警;

  • 设置告警级别,交易平均响应时间在300-500ms之间视为警示事件,高于500ms视为严重事件。

(BPC应用性能中心---告警设置---新建---服务水平监测)

服务水平监测告警分析操作过程

案例背景

某银行柜面业务异常,导致20多个营业网点无法办理某种缴费业务,该故障触发了BPC告警。让我们来看看,如何通过操作BPC实现3分钟定位问题所在。

Step 1:查看BPC告警信息

运维工程师在收到BPC服务水平监测告警短信的第一时间,立即打开BPC。如图所示,BPC已经在服务状态板上对产生故障的”业务系统”进行告警,并标记出了最近30分钟内受到故障影响的时间范围(1根时间轴为1分钟),如下图所示:

(BPC服务状态板)

Step 2:查看告警业务系统所关联的监控视图

点击显示红色的时间轴,前往该业务系统的详细监控视图。在该业务的服务路径图上我们可以看到,当前时间共触发了”3“条告警。其中,防火墙组件显示1条告警,某交易网关显示2条告警。根据BPC内置的告警故障定位算法,会自动定位发生问题的根源节点组件并标示为全红组件,如下图所示,某交易网关即为问题节点。

图片

(BPC服务路径图)

Step 3:查看告警记录概况

点击交易网关告警节点上的数字“2”,可以速览告警记录概况。如图,其中已初步描述了当前告警的触发时间、来源系统、告警事件类型、告警持续时间、本次告警的当前状态和级别等。

图片

同时点击告警记录最前方的“+”,我们可以对该条告警记录“展开”预览视图,如下图所示。

图片

(仅供告警记录说明)

Step 4:自动告警成因分析

点击第三步告警记录“操作”(绿框)内的“分析”功能,“自动告警成因分析报告”即刻自动生成。从报告中即可确认,本次故障的根源来自中间业务平台。同时,报告中呈现了导致告警发生的维度层次和维度值。通过报告的第一维度可以看出,是中间业务平台的某种缴费业务出现了问题,而该缴费业务来自第二维度的柜面渠道,同时通过第三和第四维度可以看到该业务访问的服务器地址和端口号是多少,紧接着又可以通过以下第五、第六、第七维度看到发起该业务的源地址、服务编号以及对应的错误码等。通过这张简单易懂的报告,我们便很快精确定位到发生问题的根源。

(BPC告警自动成因分析报告)

 

最后,为了不影响营业时间内的柜面缴费服务,运维工程师立即重启了对应服务器并临时恢复业务,同时督促负责中间业务的厂家对应用涉及的交易类型代码进行整体优化调整。

回顾与思考

现实中,像开篇提到的排障场景比比皆是。在对业务的各个节点缺乏足够可视性的监控分析之时,一旦出现问题往往需要依靠多厂商联合排障。但多厂商的参与,确实很难做到口径统一,快速定位问题所在,在问题的排查过程中我们需要大量的时间去复现去验证,问题发生时刻的数据我们也很难保证获取全面,一个问题能花费一周甚至一个月的时间,最后还有可能是徒劳无功。

而天旦BPC通过互联数据以应用为中心的监控视角,无论是应用架构中的应用主机、数据库实例,或是防火墙负载均衡等网络设备都能纳入到监控范围当中,端到端实现全路径交易追踪,提供指标口径一致、时间戳一致的故障定位分析结果。通过BPC,一方面可以将原先无从下手的排障过程变得目标明确、精准有序,确认问题节点后引入对应的厂商解决问题;另一方面,针对问题发生时的故障数据,所见即所得,不但可以用来复现问题,还可以用于回溯分析取证。这极大地缩短了传统方式的排障周期,针对故障告警事件,在5秒内自动找出导致告警发生的维度层次和维度值,减少反复繁琐的人工查询操作步骤,节省人力成本,提升运维管理的效能。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

安全态势感知的交互设计与视图选择

安全态势感知的交互设计与视图选择

随着我们生活质量的提高,可以公正的断言,是科学和技术在很大程度上塑造了人类的现代生活,其中,网络安全态势感知的建立更是为我们的生活添砖加瓦。 网络进行安全发展态势感知交互技术设计与视图选择因不同的数据分析类型而不同,复杂的数据我们需要通过使用一个复杂的视

2020-05-19 16:58:21

简述网络安全态势感知的可视化系统交互

简述网络安全态势感知的可视化系统交互

本文简述一下有关于网络安全态势感知,下面简单介绍常见网络安全态势感知的交互方式及各自的特点。 除了视觉呈现外,网络进行安全发展态势感知系统的另一个核心技术要素就是一个用户交互。网络安全态势感知可以比喻为用户与系统之间的互动对话和互动。通过进行互动,可在,

2020-05-20 16:49:33

爱加密:APP个人信息安全合规评估服务

爱加密:APP个人信息安全合规评估服务

随着被通报、被整改、被下架的APP屡见不鲜,为保证业务的正常运行,APP开发企业应该在应用发布前进行个人信息的安全性和合规性评估,以保证满足合规要求。爱加密,具备强大的安全检测技术和合规能力,可提供专业的个人信息安全合规评估服务。

2022-07-11 14:45:55

你怎么可以不知道什么是网络安全态势感知的可视化

你怎么可以不知道什么是网络安全态势感知的可视化

网络安全态势感知在数据结构层面,“网络”也称作图,相比于树形结构,这是一种非线性关系数据类型,但表达的关系更自由和复杂。在图结构中,图G由一个有穷节点集合V和一个边集合E组成。网络安全态势感知的常将节点称为顶点,边是顶点的有序偶对,若顶点间存在一条边,表示

2020-05-19 17:01:05

学习一下网络安全态势感知可视化设计原则与步骤

学习一下网络安全态势感知可视化设计原则与步骤

随着我们生活质量的提高,可以公正的断言,是科学和技术在很大程度上塑造了人类的现代生活,其中,网络安全技术之网络安全态势感知可视化设的建立更是为我们的生活添砖加瓦。 最重要的任务是向人们展示的信息,并包含数据的精确表达式。网络安全态势感知可视化在此基础上,

2020-05-19 16:55:40

浅谈网络安全态势感知之等保合规

浅谈网络安全态势感知之等保合规

俗话说“无规矩不成方圆”,规矩是一种约束、同时也是一种保障。随着网络安全法制建设的持续推进,等级保护制度迈入了2.0时代。最新颁布的网络安全等级保护要求也为现阶段的安全建设立下了规矩,是否合规,也就意味着是否满足基本的安全保障需求。从整个网络安全防护体系的

2020-03-24 16:54:25

严选云产品

帷幄Whale Harbor内容营销中心 帷幄Whale Harbor内容营销中心,告别素材四处存放,统一品牌内容资产管理。帷幄Harbor为品牌提供丰富的内容智能生产工具,支持图片/视频尺寸智能裁切延展,支持WPS/帷幄文档/知识库/H5在线编辑,提升内容在线生产协作效率。
智慧网点 帮助银行营业网点克服金融脱媒挑战,在互联网时代实现智慧化运营。智慧网点基于蚂蚁金服多年积累的互联网技术和金融科技,帮助银行基层营业网点和经理人员延伸服务边界,增强服务能力,提升服务效率,支持其实现全天侯获得用户,可持续地服务用户。同时让银行用户足不出户即可
博睿宏远App云适配 Bonree Test是基于遍布世界的真实手机节点,针对App在不同Android系统、不同品牌的适用性测试服务平台。
安天智甲终端检测与响应系统EDR 安天智甲终端检测与响应系统EDR是一款面向办公机、服务器、专用设备等资产的终端安全防护产品。智甲具有资产管理、风险检测、威胁检测与处置、微隔离与事件调查等多种防护能力,以此打造端点识别、塑造、防护、检测和响应的安全闭环运营体系,实现终端安全有效防护。
百炼智能知了标讯医疗器械解决方案 百炼智能知了标讯医疗器械解决方案,垂直于医疗设备细分行业招投标数据分析,提供专业全面的有效信息,为企业扩展渠道商机赋能。行业领先的识别颗粒度、高效信息获取,可视化分析报表、直观看数据。
企企管理云—移动报销 全流程智能费控 企企管理云,移动报销系统实现智能化的全流程费控。

甄选10000+数字化产品 为您免费使用

申请试用