案例丨如何保障云原生业务稳定运行?

来源: 云巴巴 2021-12-16 13:19:58

Gartner 2020全球IaaS公有云市场分析报告显示,阿里与华为跻身全球公有云市场占有率前五。中国大型云平台、云服务商已经成为服务企业云原生业务发展的中坚力量。

CNCF认为云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。因此,云原生的关键并不在于在哪里部署应用,而是在哪里构建应用。从虚拟机到容器,云原生进一步改变了云资源的获取与使用方式,缩短了应用的建设周期,显著提升了业务上线的效率。

第三方支付产业虽然起步较晚,但是市场竞争激烈,且面临银保监会严格的监管要求。为了扩大市场占有率,各类企业纷纷寻求差异化竞争,业务变化较快,新业务的不断变更与上线对传统服务器负载、IT资源利用率等带来挑战。

因此,越来越多的第三方支付企业选择将新应用以云原生的方式进行开发与部署。一方面,通过云服务商与云平台,快速地构建新应用,业务创新效率得到明显提升;另一方面,利用服务网格、无服务计算等新计算范式,为整体的IT架构带来了极致弹性,更好地服务于业务。

云原生应用监控面临挑战

如果企业依然按照传统方法开发应用,只是将应用部署在云服务器上,那并不是真正的云原生。按照云原生应用的设计逻辑,无论部署在哪种云平台上,从设计之初就采用专有节点进行分布式存储,具备更高程度的灵活性,一旦业务增长导致负载过大,可以根据配置自动化扩缩。因此,提高开发效率、快速部署应用是云原生技术的关键所在。

而云原生应用的快速开发与部署也为监控带来了不少挑战。首先,每个应用开发与部署的背后由成百上千的微服务组成,当微服务变慢或者系统无法正常工作后,快速定位问题根源变得艰难;其次,基于容器的部署,应用节点呈指数级增长,自动化的弹性扩缩使得监控无法覆盖到每一处节点;再次,多数企业选择外部的云平台与供应商进行合作,运维不仅需要了解自身架构内部的系统运行状况,还须了解外部组件与监控服务之间的关系。

云原生监控的“白盒与黑盒”

白盒监控,是指从系统内部获取信息的监控方式。有别于传统环境,云原生环境下存在大量的容器、集群与节点,且存在异常复杂的逻辑关联,采用何种形式获取全量的数据信息,并对这些信息进行解读与分析,成为了解云原生架构内部自身系统运行状况的关键;

黑盒监控,是指将系统视为黑盒并从外部进行检查而得出结论的监控类别。由于多数企业采用第三方云平台和云服务商,导致企业对供应商组件的监控极为有限,一旦外部组件影响系统整体性能之时,了解应用与外部组件的关联、服务关系就变得非常重要。

传统的监控方式以系统的可用性为核心,当发生告警或者明显的故障症状后,运维才会“被动”地排障;而随着微服务、容器、K8s等技术的出现,一切以业务、用户体验为核心,云原生应用具备极高的动态性与敏捷性,“被动”地排障既无法满足以业务为中心的快速发展需要,同时也无法打破云原生监控的白盒与黑盒,需要具备更“底层”的视角、更详细的数据信息与更主动的发现能力,这种能力被称为“可观测性”。

从监控到可观测性,须要主动发现

“告警”作为传统监控的核心,以宏观的观察视角以及明确的故障信息为依托。而云原生时代,告警并非必选项。系统架构的复杂性导致任意层级都可能发生异常,且并非所有异常皆可触发告警。因此,运维须要建立主动发现的能力,运用宏观指标与微观数据分析系统健康状况,建立对整个应用架构的全局视角。

过去,运维与开发间是割裂的,当运维无法找到故障根因时,往往需要开发人员搜索源代码进行协助;而云原生应用,开发运维一体化,应用在设计之初就考虑到容错等各方面机制,直接将运维带入开发者的视野,主动发现与观测IT系统内部的细枝末节。

“主动发现能力”是“监控”在进入云原生语境之后概念的进一步外延,让运维从传统的被动排错转向了主动观察。“主动发现能力”由排错(Degugging)、剖析(Profiling)与依赖分析(Dependency Analysis)三部分组成

  • 排错(Degugging),即运用数据和信息去诊断故障出现的原因;

  • 剖析(Profiling),即运用数据和信息进行性能分析;

  • 依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。

这三部分存在严谨的逻辑关系:首先,无论是否发生告警,运用主动发现能力都能对系统运行情况进行诊断,通过指标呈现系统运行的实时状态;其次,一旦发现异常,逐层下钻,进行性能分析,调取详细信息,建立深入洞察;再次,调取模块与模块间的交互状态,通过链路追踪构建“上帝视角”。主动发现能力的目的并不是为了告警与排障,而是通过获取最全面的数据与信息,构建对系统、应用架构最深入的认知,而这种认知可以帮助我们提前预测与防范故障的发生。

运用主动发现能力,

天旦BPC保障联通支付云原生业务稳定

作为第三方支付公司,联通支付面临激烈的市场竞争。为了快速应对市场变化与用户需求,以解决业务应用变更、新应用上线快等问题,联通支付选择华为CloudFabric构建私有云,大举推进云原生新业务应用建设。

联通支付的业务范围覆盖快捷支付、移动电话支付、手机钱包、企业综合支付解决方案等领域,在项目建设过程中,为保障云原生应用的稳定性,最终选择天旦BPC对其进行观测与保障。

全流量的采集、转发与存储,打破云原生监控黑盒

与开源的OpenStack相比,华为云属于闭源的商业云架构,应用状态更难被实时感知,全流量的采集、存储与转发十分必要。目前,天旦的云流量采集主要基于以下三种方式:

  • 第一种,在业务虚拟机内部署微探针采集业务流量。这是最直接的采集方式,多用于公有云的流量采集;

  • 第二种,通过虚拟交换机,经过OVS SDN引流的方式,将业务流量从SDN引出,主要应用于OpenStack环境的流量采集

  • 第三种,在宿主机或容器节点中创建独立的虚拟机或容器部署旁路探针,减少对宿主机内部业务的影响,同时采集和转发宿主机或容器节点内的所有流量,多用于vmware和Kubernetes环境。

为满足客户多样化的需求,在该项目中,主要通过华为云直接将网络流量导向BPC的方式,进行全流量的转发与存储,由一主三从四台BPC服务器对双活数据中心实现全范围、无盲区的采集覆盖。

主动关联应用模块,解析业务应用指标,为业务状态监控与容量扩充提供依据

由于应用在云原生环境中的状态更加灵活多变,因此应用的性能监控与负载评估更加复杂,这就需要对网络层、应用层乃至业务层的指标进行深度解析,通过实时的量化指标作为业务状态监控与容量扩充的依据。天旦BPC可以深度解析与呈现网络层与应用层指标,通过协议解码器对中间件、应用、核心等进行协议解码,提取所需字段、自动验证解码结果,并对应用或业务架构进行有效梳理,通过场景化配置与告警,实现对业务应用无死角监控,并作为动态扩容时的量化指标,实现数据驱动的运维决策。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

云巴巴受邀参加亿格云渠道培训会

云巴巴受邀参加亿格云渠道培训会

近日,云巴巴作为国内领先的数字化服务平台,受邀参加了亿格云举办的渠道培训会。

2024-04-03 17:17:33

特约邀请!云巴巴受邀做客京东云直播间

特约邀请!云巴巴受邀做客京东云直播间

作为京东云金牌合作伙伴,云巴巴数字化平台受邀做客京东云直播间,与广大网友共享云计算的魅力,解读行业发展出现的问题和解决方案。

2024-04-01 17:21:59

云手机哪个好用?盘点性价比超高的云手机系统

云手机哪个好用?盘点性价比超高的云手机系统

今天我们就连盘点几款性价比超高的云手机品牌,为企业的选择提供选型建议。

2024-04-12 17:38:03

百度智能云大模型升级,云巴巴助力企业实现AI大模型完美匹配

百度智能云大模型升级,云巴巴助力企业实现AI大模型完美匹配

9月5日。由北京市经济和信息化局指导、百度智能云主办的2023百度云智大会在北京举行。

2024-03-27 14:58:23

云巴巴受邀参加优刻得UCloud合作伙伴招募会,共同推动云生态发展

云巴巴受邀参加优刻得UCloud合作伙伴招募会,共同推动云生态发展

3月21日,优刻得2024合作伙伴招募会北京站成功举办,大会以“聚力生态·携手共赢”为主题,优刻得带来了全新的伙伴政策。

2024-03-27 15:19:59

跨境云手机的多维度选择指南

跨境云手机的多维度选择指南

那么如何才能选择更好的跨境云手机产品,本文将从性能、稳定性、价格、用户体验和安全性等多个维度,来进行分析比较,帮助读者做出明智的选择。

2024-04-18 17:13:29

严选云产品

核心全业务路由器 RG-RSR77-X系列核心全业务路由器是锐捷网络坚持自主创新,面向企业网云架构和云业务的需求,基于已广泛商用的RG-RSR77系列升级推出的下一代高端分布式路由器。
销帮帮SaaS软件行业CRM系统 销帮帮CRM中的相关应用模块可满足市场人员、销售专员、销售主管、财务人员和公司管理层在实际工作场景中的业务操作,解决获客、跟进、签约和回款等多个业务流程中沟通成本高和信息难同步的问题,增强企业运转敏捷性。
北塔端云IT智能监控软件 北塔端云IT智能监控软件,是基于北塔BeCloud 云融合平台开发的全场景监控产品。 BeCloud MC发挥平台优势,基于覆盖全面的IT环境数据采集能力, 提供及时准确的告警,通过智能巡检、场景落地等,不断提升运维效率,保障业务系统的持续稳定运行。
来也科技 合同管理系统 来也科技合同管理系统,可以从非结构化的文本中抽取结构化信息,文档比对、抽取,预置合同、简历、公文、招投标等 预训练模型;通过标注、训练、评测、优化的闭环工作流,可以持续优化模型效果。
长扬科技工业视觉AI安全能力云平台 视觉AI安全云平台,既可面向企业内部构建私有云,亦可通过公有云构建SaaS视觉安全应用。一方面是降低企业大规模建设视觉AI云应用的难度和成本;另一方面是降低企业视觉AI安全云应用系统运行与运维管理复杂度。
赛盒ERP亚马逊版 赛盒ERP亚马逊版,采购-付款-收货-质检-入库-冲账-完结,形成完整的采购流程闭环。自动设定销量规则,结合各仓库库存情况,生成补货建议。合理补货,降低库存成本,避免断货,提升管理精细化。实时查看不同店铺不同商品的销量、销售金额、广告等数据,可视化展示,数据同比环比分析,为销售决策提供数据支撑。

甄选10000+数字化产品 为您免费使用

申请试用