立即咨询

电话咨询

微信咨询

立即试用
商务合作

实践丨天旦BPC服务水平监测告警分析操作指南

2021-12-16

作为业务的守护者,也许你经常会遇到同一种情况:每当业务问题爆发时,可能你接到了投诉电话,也可能收到了应用异常的短信提醒。然后,你会召集应用链路上的每家厂商工程师来集中排查生产问题。厂商陆续抵达现场之后,大家会先各自查看自家设备的日志log及其监控手段,从路由器、防火墙、SSL、负载均衡、中间件、服务器、数据库等等层层深入。先抛开各家厂商到达问题现场的时间不谈,当你向厂商工程师们阐述清楚问题现象,并顶着压力耐心等待他们从Ping、Traceroute再到抓包分析之后,最终会收到同一个结论:“这不是我们的问题”。

那么问题来了,那到底是谁的问题呢?没有依据,你很难辩驳厂商的分析结论,也无从找到解决方案。但领导的要求是不变的:在最短的时间内解决问题。于是,你陷入了两难。

图片

现在有一种从天而降的“掌法”,能够快速帮你定位业务故障的问题根源,你学还是不学?

天旦BPC“五大场景化告警”之

服务水平监测告警

天旦BPC“五大场景告警监测”覆盖了绝大部分金融应用交易异常事件,而“服务水平监测告警”,则是BPC在用户实际应用场景中被最频繁使用的告警场景。通过服务水平监测告警功能,用户可以实时监控分析高频关键应用交易,在应用交付链上自动定位故障根源节点,快速找出影响故障发生的维度和维度值,并一键形成告警成因分析报告,帮助用户改善应用性能问题,极大地缩短了排障周期,同时节省了人力功耗成本。

本文将以“用户真实场景”为例,详细介绍当应用系统出现生产问题导致服务水平监测告警时,如何操作BPC告警分析模块,快速定位问题发生的根源。以此,帮助用户按照同样的步骤,能够在告警发生时,独立完成问题的分析操作。

服务水平监测告警使用场景

服务水平监测告警适用于对业务应用有明确服务水平要求的场景。(阈值告警)

(BPC应用性能中心---告警设置---新建)

服务水平监测告警用法示例

如图所示,我们可以根据业务的历史服务水平,设置告警的阈值范围和告警级别,比如:

  • 每分钟的交易量大于1000笔,且每分钟交易平均响应时间均高于300ms,持续2分钟,被认为服务水平不达标,需要触发告警;

  • 设置告警级别,交易平均响应时间在300-500ms之间视为警示事件,高于500ms视为严重事件。

(BPC应用性能中心---告警设置---新建---服务水平监测)

服务水平监测告警分析操作过程

案例背景

某银行柜面业务异常,导致20多个营业网点无法办理某种缴费业务,该故障触发了BPC告警。让我们来看看,如何通过操作BPC实现3分钟定位问题所在。

Step 1:查看BPC告警信息

运维工程师在收到BPC服务水平监测告警短信的第一时间,立即打开BPC。如图所示,BPC已经在服务状态板上对产生故障的”业务系统”进行告警,并标记出了最近30分钟内受到故障影响的时间范围(1根时间轴为1分钟),如下图所示:

(BPC服务状态板)

Step 2:查看告警业务系统所关联的监控视图

点击显示红色的时间轴,前往该业务系统的详细监控视图。在该业务的服务路径图上我们可以看到,当前时间共触发了”3“条告警。其中,防火墙组件显示1条告警,某交易网关显示2条告警。根据BPC内置的告警故障定位算法,会自动定位发生问题的根源节点组件并标示为全红组件,如下图所示,某交易网关即为问题节点。

图片

(BPC服务路径图)

Step 3:查看告警记录概况

点击交易网关告警节点上的数字“2”,可以速览告警记录概况。如图,其中已初步描述了当前告警的触发时间、来源系统、告警事件类型、告警持续时间、本次告警的当前状态和级别等。

图片

同时点击告警记录最前方的“+”,我们可以对该条告警记录“展开”预览视图,如下图所示。

图片

(仅供告警记录说明)

Step 4:自动告警成因分析

点击第三步告警记录“操作”(绿框)内的“分析”功能,“自动告警成因分析报告”即刻自动生成。从报告中即可确认,本次故障的根源来自中间业务平台。同时,报告中呈现了导致告警发生的维度层次和维度值。通过报告的第一维度可以看出,是中间业务平台的某种缴费业务出现了问题,而该缴费业务来自第二维度的柜面渠道,同时通过第三和第四维度可以看到该业务访问的服务器地址和端口号是多少,紧接着又可以通过以下第五、第六、第七维度看到发起该业务的源地址、服务编号以及对应的错误码等。通过这张简单易懂的报告,我们便很快精确定位到发生问题的根源。

(BPC告警自动成因分析报告)

 

最后,为了不影响营业时间内的柜面缴费服务,运维工程师立即重启了对应服务器并临时恢复业务,同时督促负责中间业务的厂家对应用涉及的交易类型代码进行整体优化调整。

回顾与思考

现实中,像开篇提到的排障场景比比皆是。在对业务的各个节点缺乏足够可视性的监控分析之时,一旦出现问题往往需要依靠多厂商联合排障。但多厂商的参与,确实很难做到口径统一,快速定位问题所在,在问题的排查过程中我们需要大量的时间去复现去验证,问题发生时刻的数据我们也很难保证获取全面,一个问题能花费一周甚至一个月的时间,最后还有可能是徒劳无功。

而天旦BPC通过互联数据以应用为中心的监控视角,无论是应用架构中的应用主机、数据库实例,或是防火墙负载均衡等网络设备都能纳入到监控范围当中,端到端实现全路径交易追踪,提供指标口径一致、时间戳一致的故障定位分析结果。通过BPC,一方面可以将原先无从下手的排障过程变得目标明确、精准有序,确认问题节点后引入对应的厂商解决问题;另一方面,针对问题发生时的故障数据,所见即所得,不但可以用来复现问题,还可以用于回溯分析取证。这极大地缩短了传统方式的排障周期,针对故障告警事件,在5秒内自动找出导致告警发生的维度层次和维度值,减少反复繁琐的人工查询操作步骤,节省人力成本,提升运维管理的效能。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

橙色云CRDE智橙协同设计研发平台橙色云CRDE智橙协同设计研发平台是SaaS云原生平台,整合云CAD、项目管理、BOM管理等多功能,支持多终端、跨地域协同工作。它以云PLM与云CAD一体化为核心,提供一站式产品创新解决方案,推动企业数字化转型,实现高效、低成本研发设计。
的修物业工单管理系统“的修”平台,全面聚焦物业管理痛点,提供高效报事报修、人员外勤监管、物业数据分析等一站式解决方案。通过多渠道报修、智能巡检、流程进度管控、定点打卡、配件管理、失物招领、意见反馈、智识库、数据分析等功能,打造移动、便捷、高效的数字化管理服务,实现降本增效。
飞画flyDrop飞屏显示控制系统是一款专业的多媒体展览展示控 制管理软件,系统采用先进的软件技术,创新性地将内容、智能设备(声光电)融为一体,为展厅、智慧运营中心、智慧楼宇等展览展示场景提供灵活、简单、 易用的控制解决方案,大大提高对创意内容、屏幕、空间、设备的调度能力,赋能屏幕,赋能智 慧生活。
腾讯云慧眼人脸核身腾讯云人脸核身是一组对用户身份信息真实性进行验证审核的服务套件,包含证件OCR识别、活体检测、人脸1:1对比等能力,以解决行业内大量对用户身份信息核实的需求。
壹悟科技智能物流仿真系统Simulator壹悟科技智能物流仿真系统(Simulator)可以实现对仓储场景和工厂场景的业务流程仿真。支持用户导入项目现场运行地图,自定义移动机器人的参数和数量,以真实的物流业务调度系统(WCS)和机器人调度系统(RCS)为内核,驱动仿真运行,高度还原业务实际场景的作业流程和节拍。支持2D和3D实时运行显示,并提供完善的运行数据统计分析。
为你推荐
查看更多