icon业务云化所引发的问题icon

云化带来了更优雅的架构、更灵活的调度、更完善的治理的同时,也带来更多新的复杂性。

icon混沌工程是业务云化的“标配”icon

故障越来越难定位,故障越来越不可预知的复杂的云化系统里如何生存下去?现在,一个很好的答案就是 - Chaos Engineering,中文里面叫做混沌工程。相比于我们成天担惊受怕系统会出现什么样的问题,还不如提前就模拟线上环境可能出现的各种情况,来看我们的系统是否能做到容错,仍然能继续对外提供服务。

混沌工程的定义

混沌工程是一门新兴的技术学科,初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御突发事件能力的信心。——《Principles of Chaos Engineering》可以理解成:一种类似于【疫苗】保护人体的方法。

混沌工程和测试的区别

常规测试,测试场景和结果已知。混沌工程,验证尚未明确结果的场景。

混沌工程的定义

08年Netflix决定把它的业务迁移到AWS上,从自身运维的角度考虑,它有很多担忧的地方。很长时间内有两套系统在同时运行,运维的复杂度更高了。Netflix的用户量已经达到了1亿,对应用稳定性依赖很高,如果出现故障对用户的影响非常大,甚至是致命的业务不断复杂,引入微服务架构,对应用的高可用性要求越来越高。生产环境非常复杂,是多样性的,很难在测试环境中完全模拟生产的状态。Netflix决心探索一种在生产环境验证应用高可用性的一种方法,这就是现在大家所熟知的混沌工程。

iconIStorM CHAOS混沌工程平台icon

相较于初级的混沌工程产品,同创永益混沌工程演练平台拥有丰富的可扩展的故障库,除可为企业提供所有基础的,几乎涵盖所有的已知故障外,还支持自定义来扩展故障库。同时,在演练过程中,可为企业提供完善的业务保护方式,对演练环境快速进行恢复,同时提供业务沙盘功能,在充分模拟真实环境的隔离环境下进行演练,增强演练安全性。此外,基于内部故障演练经验,同创永益混沌工程故障演练平台提供丰富的预定义故障场景,涵盖基础服务、微服务治理、云原生容器编排、备份容灾等场景,企业用户可以轻松对场景进行扩展,或将历史实验沉淀为场景库。基于工作流引擎的场景编排,支持并行、串行的组合,以及定时自动执行的流程定义,演练过程灵活可控,可随时终止演练。对于企业而言,通过同创永益混沌工程演练平台,企业可验证系统稳定性,发现系统或应用的薄弱点;验证微服务的容错能力与防护手段;验证业务编排与配置是否合理;验证监控的发现能力及告警系统的有效性;验证灾备方案、应急预案的适用性和可用性等,让故障处理变被动为主动,业务系统更安全。

iconIStorM CHAOS混沌工程平台| 应用场景icon
验证系统稳定性,发现系统或应用的薄弱点

通过模拟物理机宕机,重启,节点网络异常等来验证基础设施主从切换,主从同步是否正常。通过模拟服务的不可用,服务间的网络通讯异常等来验证服务层的高可用。

验证微服务的容错能力

通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,微服务的强弱依赖是否正常,同时观察系统整体的QPS或RT是否受影响。

验证业务编排是否合理

通过模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及Pod下部署的容器是否合理。

验证监控的发现能力及告警系统的有效性

通过对业务系统注入故障,验证监控指标是否准确,监控覆盖是否全面,告警阈值的设置是否合理,告警是否及时,接收人是否准确,通知渠道的可用性等,提高监控告警的准确程度和有效性。

验证灾备方案、应急预案的适用性和可用性

通过模拟基础设施故障导致的整个可用区故障,观察灾备切换是否正常执行,核心系统和组件是否进行自动容灾切换,应急预案是否覆盖全面,是否有缺失,是否可用、是否适用,从而对不可用、不适用、不全面的地方进行整改。

iconIStorM CHAOS混沌工程平台 | 优势icon
丰富的,可扩展的故障库

除提供所有基础的,基本上涵盖所有的已知故障外,还支持自定义来扩展故障库。

良好的实验防护

提供完善的业务保护方式,对演练环境快速进行恢复,同时提供业务沙盘功能,在充分模拟真实环境的隔离环境下进行演练,增强演练安全性。

灵活的故障场景编排

基于工作流引擎的场景编排,支持并行,串行的组合,以及定时自动执行的流程定义,演练过程灵活可控,可随时终止演练。

丰富的可扩展的故障场景

基于内部故障演练经验,平台提供丰富的,预定义故障场景,涵盖基础服务,微服务治理,云原生容器编排,备份容灾等场景;用户可以轻松对场景进行扩展,或将历史实验沉淀为场景库。

同创业务连续性产品体系

支持与同创的应急平台、灾备平台、监控平台、自动化运维平台对接,共同打造从故障模拟-监控告警-应急预案响应-灾备切换触发的完整演练闭环。

icon客户案例 | 某银行稳定性工程项目-痛点icon
如何确保平台稳定性

某银行目前也在进行IT架构转型,微服务化,容器化,云原生化。使用的自研的容器云,随着业务的逐步迁移,平台出现过瘫痪事件,从稳态到敏态的转型过程中,加强平台稳定性的需求迫在眉睫。

如何确保中间件稳定性

平台部门负责的Mysql,nacos,sentinel,sequence等组件在高负荷,故障发生时的高可用性,弹性,稳定性如何?存在着很高的不确定性。

如何确保应用的稳定性

随着应用逐步的迁移,由于应用的编排,资源限制,弹性伸缩配置等的配置在高负荷,故障发生时是否会导致平台的不稳定发生。在负荷高,故障发生的情况,应用的幂等性是否有效。怎么和区分是平台的问题,还是应用的问题,也是他们非常担忧的点。

icon客户案例 | 某银行稳定性工程项目-方案icon

该商业银行在进行新核心系统改造,微服务化,容器化,云原生化的过程中发现:如何在上生产前验证平台以及应用的稳定性?需寻找一种机制确保在 IT 架构转型过程中所有业务可以稳定对外提供服务。CNBR根据信通院发表的云原生构建的业务应用的能力成熟度评估模型,从基础平台、应用研发域、服务治理域等方面评估该银行云原生业务应用在弹性、高可用、自愈性、可观测性以及自动化等方面的云原生能力成熟度。

平台稳定性提升
通过注入宕机,重启,节点网络异常等故障验证基础设施异常、Pod调度正常与否。通过注入服务Pod故障、节点故障、增大Pod资源负载,观察系统服务可用性,验证HPA,副本配置、资源限制配置,安全配置,监控告警,以及Pod下部署的容器是否合理。
中间件稳定性提升
通过对中间件Mysql,nacos,sentinel,的网络延迟,异常发生,sequence等组件容器停用等故障来验证中间件的高可用,弹性伸缩。
应用稳定性提升
针对银行应用技术架构,通过注入微服务网络调用延迟,超时,以及QPS故障等,提供微服务熔断降级演练、微服务流量控制演练、微服务强弱依赖演练,来验证应用的RT是否受影响,全面检测应用的稳定性。
稳定性体系化建设
演练工具完善化
演练方法体系化
常态化演练
管理模式流程建设
安全生产文化建设
icon客户案例 | 某银行稳定性工程项目-展示icon
icon客户案例 | 某银行稳定性工程项目-展示icon
icon客户案例一 | 某银行稳定性工程项目-总结icon
目标
提高技术架构弹性能力,在故障造成中断前将其识别并扼杀,应对多元化业务场景,抵抗高度复杂应用架构下不确定性因素的影响。
价值
验证并提升云原生新核心系统上线信心,保证XX技术平台按照计划进行业务上线,提高平台/中间件/应用稳定性,完善稳定性体系化建设,总结了一套基于故障注入演练的实施方法论,让行方了解了混沌工程方法论。
规划
云原生成熟度打分,应用上线评级打分,故障演练标准化、常态化,扩大化。
icon公司介绍icon

同创永益是面向未来的数字韧性服务提供商,专注于提供业务连续性、IT韧性和灾难恢复相关产品、解决方案及服务的国家级高新技术企业。在数字经济时代助力企业实现业务连续性的可视化、自动化、智能化、成本优化,成为客户业务连续性的最后一道防线。

深厚的行业经验积累
有十年的灾备业务连续性领域的技术积淀,拥有丰富的金融、能源、运营商等行业经验。成功服务了包括建设银行、人保集团、中国海洋石油等客户
开放、共赢的生态协同
打造了良好的技术合作生态,可以为用户提供最佳的灾备技术及集成方案,我们与国内多家公有云服务商进行合作推出SaaS服务,是信创工委会在本领域唯一会员单位,是华为在灾难恢复管理平台领域唯一框采入围供应商。
 
 
最好的产品技术打磨
拥有三位一体业内最完整的产品矩阵,10多款产品为用户打造保证业务韧性的综合解决方案。核心产品灾备管理平台蝉联国际灾难恢复协会2017、2019年“年度最佳BC/DR工具奖”。
业内领先的团队服务
IBM、EMC、ICBC、GDS资深专家; 《金融业务连续性管理能力成熟度模型与评估》、 《信息技术服务数据中心业务连续性等级评价准则》、《云原生能力成熟度模型》多项国际、行标参与制定者。集咨询、软件服务、培训、交付、云服务于一体,“年度最佳DR服务商奖”。
icon客户icon

目前,我们的产品和服务广泛并成功地应用于各行业的杰出企业。我们在提供先进的软件和完善的服务帮助企业级客户构建完善的业务连续性及灾备管理体系,助力企业成就非凡。

icon全栈信创,满足国产化需求icon
产品推荐 查看更多>>