实践丨天旦BPC服务水平监测告警分析操作指南

来源: 云巴巴 2021-12-16 14:05:33

作为业务的守护者,也许你经常会遇到同一种情况:每当业务问题爆发时,可能你接到了投诉电话,也可能收到了应用异常的短信提醒。然后,你会召集应用链路上的每家厂商工程师来集中排查生产问题。厂商陆续抵达现场之后,大家会先各自查看自家设备的日志log及其监控手段,从路由器、防火墙、SSL、负载均衡、中间件、服务器、数据库等等层层深入。先抛开各家厂商到达问题现场的时间不谈,当你向厂商工程师们阐述清楚问题现象,并顶着压力耐心等待他们从Ping、Traceroute再到抓包分析之后,最终会收到同一个结论:“这不是我们的问题”。

那么问题来了,那到底是谁的问题呢?没有依据,你很难辩驳厂商的分析结论,也无从找到解决方案。但领导的要求是不变的:在最短的时间内解决问题。于是,你陷入了两难。

图片

现在有一种从天而降的“掌法”,能够快速帮你定位业务故障的问题根源,你学还是不学?

天旦BPC“五大场景化告警”之

服务水平监测告警

天旦BPC“五大场景告警监测”覆盖了绝大部分金融应用交易异常事件,而“服务水平监测告警”,则是BPC在用户实际应用场景中被最频繁使用的告警场景。通过服务水平监测告警功能,用户可以实时监控分析高频关键应用交易,在应用交付链上自动定位故障根源节点,快速找出影响故障发生的维度和维度值,并一键形成告警成因分析报告,帮助用户改善应用性能问题,极大地缩短了排障周期,同时节省了人力功耗成本。

本文将以“用户真实场景”为例,详细介绍当应用系统出现生产问题导致服务水平监测告警时,如何操作BPC告警分析模块,快速定位问题发生的根源。以此,帮助用户按照同样的步骤,能够在告警发生时,独立完成问题的分析操作。

服务水平监测告警使用场景

服务水平监测告警适用于对业务应用有明确服务水平要求的场景。(阈值告警)

(BPC应用性能中心---告警设置---新建)

服务水平监测告警用法示例

如图所示,我们可以根据业务的历史服务水平,设置告警的阈值范围和告警级别,比如:

  • 每分钟的交易量大于1000笔,且每分钟交易平均响应时间均高于300ms,持续2分钟,被认为服务水平不达标,需要触发告警;

  • 设置告警级别,交易平均响应时间在300-500ms之间视为警示事件,高于500ms视为严重事件。

(BPC应用性能中心---告警设置---新建---服务水平监测)

服务水平监测告警分析操作过程

案例背景

某银行柜面业务异常,导致20多个营业网点无法办理某种缴费业务,该故障触发了BPC告警。让我们来看看,如何通过操作BPC实现3分钟定位问题所在。

Step 1:查看BPC告警信息

运维工程师在收到BPC服务水平监测告警短信的第一时间,立即打开BPC。如图所示,BPC已经在服务状态板上对产生故障的”业务系统”进行告警,并标记出了最近30分钟内受到故障影响的时间范围(1根时间轴为1分钟),如下图所示:

(BPC服务状态板)

Step 2:查看告警业务系统所关联的监控视图

点击显示红色的时间轴,前往该业务系统的详细监控视图。在该业务的服务路径图上我们可以看到,当前时间共触发了”3“条告警。其中,防火墙组件显示1条告警,某交易网关显示2条告警。根据BPC内置的告警故障定位算法,会自动定位发生问题的根源节点组件并标示为全红组件,如下图所示,某交易网关即为问题节点。

图片

(BPC服务路径图)

Step 3:查看告警记录概况

点击交易网关告警节点上的数字“2”,可以速览告警记录概况。如图,其中已初步描述了当前告警的触发时间、来源系统、告警事件类型、告警持续时间、本次告警的当前状态和级别等。

图片

同时点击告警记录最前方的“+”,我们可以对该条告警记录“展开”预览视图,如下图所示。

图片

(仅供告警记录说明)

Step 4:自动告警成因分析

点击第三步告警记录“操作”(绿框)内的“分析”功能,“自动告警成因分析报告”即刻自动生成。从报告中即可确认,本次故障的根源来自中间业务平台。同时,报告中呈现了导致告警发生的维度层次和维度值。通过报告的第一维度可以看出,是中间业务平台的某种缴费业务出现了问题,而该缴费业务来自第二维度的柜面渠道,同时通过第三和第四维度可以看到该业务访问的服务器地址和端口号是多少,紧接着又可以通过以下第五、第六、第七维度看到发起该业务的源地址、服务编号以及对应的错误码等。通过这张简单易懂的报告,我们便很快精确定位到发生问题的根源。

(BPC告警自动成因分析报告)

 

最后,为了不影响营业时间内的柜面缴费服务,运维工程师立即重启了对应服务器并临时恢复业务,同时督促负责中间业务的厂家对应用涉及的交易类型代码进行整体优化调整。

回顾与思考

现实中,像开篇提到的排障场景比比皆是。在对业务的各个节点缺乏足够可视性的监控分析之时,一旦出现问题往往需要依靠多厂商联合排障。但多厂商的参与,确实很难做到口径统一,快速定位问题所在,在问题的排查过程中我们需要大量的时间去复现去验证,问题发生时刻的数据我们也很难保证获取全面,一个问题能花费一周甚至一个月的时间,最后还有可能是徒劳无功。

而天旦BPC通过互联数据以应用为中心的监控视角,无论是应用架构中的应用主机、数据库实例,或是防火墙负载均衡等网络设备都能纳入到监控范围当中,端到端实现全路径交易追踪,提供指标口径一致、时间戳一致的故障定位分析结果。通过BPC,一方面可以将原先无从下手的排障过程变得目标明确、精准有序,确认问题节点后引入对应的厂商解决问题;另一方面,针对问题发生时的故障数据,所见即所得,不但可以用来复现问题,还可以用于回溯分析取证。这极大地缩短了传统方式的排障周期,针对故障告警事件,在5秒内自动找出导致告警发生的维度层次和维度值,减少反复繁琐的人工查询操作步骤,节省人力成本,提升运维管理的效能。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

指掌易上榜CCSIP 2021中国网络安全产业全景图多个领域

指掌易上榜CCSIP 2021中国网络安全产业全景图多个领域

指掌易凭借领先的技术和产品以及强大的市场影响力,入选全景图5大板块的9个细分领域。

2021-12-07 16:56:49

听说你还不知道什么是网络安全态势感知

听说你还不知道什么是网络安全态势感知

安全对我们每个人来说都是十分重要的,安全态势感知技术在特别在这个网络信息时期,可有效提前发现我们即将面临的网络安全问题,所以,快跟着我来一起学习一下什么是网络安全态势感知吧。 随着网络的数据,人规模的不断扩大渐渐发现结果中的节点和边缘往往掩盖彼此形成的,

2020-05-20 16:57:11

艺赛旗位列前三!IDC发布“2021中国 RPA+AI 软件市场份额排名”报告

艺赛旗位列前三!IDC发布“2021中国 RPA+AI 软件市场份额排名”报告

IDC人工智能高级分析师程荫表示:"近年来,中国 RPA+AI 市场稳步增长,中国拥有RPA和AI技术的科技企业都在 RPA+AI 领域积极布局,这将极大促进中国RPA市场的发展与成熟。

2022-07-11 15:25:00

关于网络安全态势感知的安全仪表盘的简单介绍

关于网络安全态势感知的安全仪表盘的简单介绍

你可能没有听过网络安全态势感知,但你一定听说过网络安全技术这一名词,网络安全态势感知作为是最重要的现代互联网应用之一,在人们的工作和生活中处于不可取代的地位,尤其是在商务和政务应用中。企业、政府机构中的办公文档、业务数据和机密文件,都通过网络传递和交流,网

2020-05-20 16:54:22

首发即获奖!长亭谛听首创5G蜜罐,守护边缘云安全

首发即获奖!长亭谛听首创5G蜜罐,守护边缘云安全

长亭谛听(D-Sensor)伪装欺骗系统,通过分析5G环境常见攻击流程,在关键攻击路径上部署蜜罐系统,利用各类蜜罐服务组建5G伪装蜜网,诱导攻击者进入“陷阱”。

2021-12-02 10:43:33

注重代码审计是保障应用安全的根

注重代码审计是保障应用安全的根

在网络攻击中人尽皆知的SQL注入攻击,就是利用了代码中的漏洞,在查询语句的参数传递的时候跟上额外的删除或者修改的SQL语句。 如果说不是使用了占位符的方式就让黑客顺利的执行了额外的恶意SQL,所以代码中的漏洞是可以被利用越过防火墙,安全网关,云防火墙直接

2022-11-23 10:26:01

严选云产品

泛微eteams一体化移动办公云平台OA 泛微eteams一体化移动办公云平台OA,功能深化,更多个性化,自定义化的实现,实现各行业各职能的场景需求。整体界面更直观简洁,快速找到想要的功能应用,操作便捷,像使用手机一样简单易用。
简道云生产报工与生产跟踪解决方案 简道云生产报工与生产跟踪解决方案,一个计划单对应一张二维码,扫码查看生产进度、报工。实时产量数据,提前设置好计件工资规则,报工后即可查今日工资。生产信息汇总、班组排名 以多维报表形式展示。
腾讯电子签 腾讯电子签是一款为企业及个人提供安全、便捷的电子合同签约及证据保存服务的产品。 您可以在实名认证的前提下,与约定方完成线上签约,并将签约过程进行存证保全以确保签约公信力。 腾讯电子签致力于降低您的运营成本,提升多端签署效率。
派网无线WiFi伴侣_优化网络 派网针对中小微型企业专门打造的无线WiFi伴侣,帮您完美解决以上问题。安装方便快捷,是企业节省成本、优化网络的不二之选。
智安网络企业安全运营管理平台 智安网络企业安全运营管理管理平台,简称等保云一体机平台,以《中华人民共和国网络安全法》为法律依据,以 2019年5月发布的《GB/T22239-2019 信息安全技术网络安全等级保护基本要求》为指导标准开发的一款以云底座为基础的安全设施平台。
长亭网页防篡改系统 采用第三代防篡改技术,高效解决网站被非法篡改问题,保障政府和企业业务正常进行。

甄选10000+数字化产品 为您免费使用

申请试用