icon趋势-数字免疫系统 icon

数字免疫系统(Digital Immune System,DIS)结合了可观察性、Al增强测试、混沌工程、自修复、站点 可靠性工程和软件供应链安全等实践和技术,以提高产品、服务和系统的弹性,同时降低业务风险。 Gartner预计,到2025年, 投资于建立数字免疫的企业将减少80%的停机时间,以此来提高客户满意度。

icon稳定性保障各环节的目标 icon
故障预防
基于用户行为高仿真、系统状态高仿真、 运行环境高仿真,实现测试全覆盖。同时结合变更管理、操作行为防控、技术风险防控,确保系统变更过程可控。
故障改进
通过历史事件的复盘,持续完善故障预防能力、故障感知能力、故障处置能力。
故障处置
构建完善的应急处置能力和组织,在发生故障时,能有效的协调恢复系统。
故障发现
构建基于联邦制的统一监控体系,做到生产故障能发现。
icon应用实践icon
业务可用性实时感知
业务用例百分百覆盖(如买、卖、撤、查,以及各种高权限操作等), 实时感知、实时告先于用户发现问题,减少客户投诉,防止舆情发生
业务数据全方位验证
如市场数据不同步、数据异常变动、 多终端数据不一致、数据加载异常等问题,同时可按需实现 客户所需的业务验证点
业务流程多维度分析
通过APP纵向版本对比分析、同业横向业务对比分析、易错环节分析等,为业务提升和优化提供数据支撑。
icon客户认可icon
icon应用实践业务实时监控 icon
icon应用实践-保障稳定性提升 icon
icon什么是混沌工程 icon
混沌工程是一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御突发事件能力的信心。 通过主动向系统中注入可能引发故障的扰动,来探索系统对扰动的承受能力,发现系统中潜在的脆弱环节, 提前识别位置隐患。
本质
通过实验发现风险
核心思想
主动+探索,以风险管理视角正视故障存在的可能性
核心手段
故障或事件注入
icon稳定性保障体系建设目标 icon

降发生:降低事故发生的概率;降影响:降低故障发生后的影响范围,稳定性建设工作的开展都是为了实现最终的稳定性目标。

icon混沌工程的应用场景 icon
传统的稳定性保障手段,对于需要特定外界扰动才能触发的故障缺乏识别和修复的手段,只能在系统故障发生时对故障进行被动的响应,导致故障应对的进度和成本不可控,混沌工程通过主动注入的方式,在可控的前提下“通过失败来避免失败”,不但引入已知范围内的缺陷,还可以模拟多样化的现实事件、开展探索性的测试,更好了解系统的稳定性边界。
 
架构层面
通过验证分布式架构的韧性,及时发现架构不合理之处
开发测试层面
通过对基础环境、中间件层、应用层的验 证实现“风险左移”
运维层面
通过验证告警能力、完善指标体系等,提升故障定位能力、丰富应急预案场景、提升应急处置能力
客户层面
通过验证产品在突发状况下的表现,提升客户产品使用体验。
icon混沌工程平台 icon

支持Windows、Linux、 云原生、信创等多环境的原子故障场景库,在laaS、 PaaS、 SaaS层已累积故障场景 达上百种。用户可以根据实际演练计划需要择取原子场景构建演练活动。

icon故障能力增强icon
icon观测能力提升icon
icon华泰证券4年建设实践经验icon
三大阵地
在产品发布三个阶段开展混沌工程活动 v生产环境:进行真实场景故障演练,合计演练 1.3万+次、覆盖各类系统300+,识别各类技术风险400+个。
仿真环境:与生产环境演练场景形成互补,开展新功能上线前的系统稳定性测试。
测试环境:将混沌工程理念融入到研发阶段, 演练场景深入业务逻辑,问题发现能力前移至版本发布测试环节。
活动专项
提前发现技术风险,全面提升系统稳定性,保障业务连续性
保卫波特姆行动:根据生产运维经验,总结出威胁安全稳定运行的六大风险,通过该行动不断探测系统运行底线,发现技术风险,从而牢牢守住系统稳定运行底线。
建党100周年专项:重点聚焦在IT安全生产管理中亟待解决的五方面问题,制定专项提升行动计划,以涨乐财富通为代表的核心业务进行重点突破,进而总结经验,迭代推广,建立健全相关管理机制,最终覆盖到部门]所有核心生产系统。
icon安信证券-从测试快速走向生产 icon
icon海通证券测试左移 icon
混沌工程在测试迭代中的左移与应用 针对海通证券新一代分布式核心交易系统,运用混沌工程的理论和技术并结合海通目前对稳定性和可靠性的保 障经验,构建上线部署前的可靠性技术覆盖体系。
应用混沌工程,优化对海通新- -代核心交易系统可靠性和稳定性测试场景体系。
对于存量积累的场景库,建立可转化成自动化执行。
和比对的自动化系统。
对存量和增量发现的生产问题,梳理出持续改 进和积累成场景集合的流程。
icon.上交所-仲裁系统稳定性验证 icon
集群形成后对SEQUENCE集群Leader注入故障(网络 包损/网络丢包/网络延迟/进程停止/进程杀死)观测集群是否影响重新选主,选主过程中恢复故障,观测该节点是否加入集群。
集群形成后对BIZ集群Leader注入故障(网络包损/网 络丢包/网络延迟/进程停止/进程杀死)观测集群是否影响重新选主,选主过程中恢复故障,观测该节点是否加入集群。
集群形成后对SEQUENCE集群、BIZ集群Leader注入 故障(网络包损/网络丢包/网络延迟/进程停止/进程杀死)观测集群是否影响重新选主,恢复故障,观测该节点是否加入集群。
集群未形成在信息初始化时对任意一机器注入故障(网 络包损/网络丢包/网络延迟/进程停止/进程杀死),并 对故障进行恢复,观测集群影响,是否正常选主。
icon稳定性工程平台 icon

依托混沌工程故障演练能力,构建稳定性工程平台,通过不断失败来避免失败,将这些"痛苦"放在事前, 用"以战养战”的方式来使风险在可控的范围内及早暴露,持续地验证系统的容灾能力。 稳定性工程平台坚持开放式发展,深度融入到运维一体化体系中,通过与各周边平台对接,力争打造稳定性能力发展中枢。

icon反演对比icon

业务快速迭代、系统重构拆分、平台持续升级,伴随着的是研发周期的缩短,如何持续验证业务的正确性成为 了亟待解决的问题,测试质量和效率面临巨大挑战。基于流量的回放测试,相较于传统的自动化测试手段,具备测 试准备简单、交易覆盖面全、测试场景更接近真实生产等优势,在核心、重要应用系统的升级重构过程中发挥了重 要作用。回放测试是近年来自动化测试领域研究的热点。

icon特点优势icon
插件式架构支持多系统
恒生: UF2.0、UF3.0
金证: KCBP
中焯: APP后台
华锐:极速交易ATP
根网: FIX协议
自研:用户自研系统
多并发任务1天内完成
100G日志、1亿条报文
5台执行机并发
1天内完成回归测试
自定义接口场景多样化
可以针对测试方案、日调用量, 设计不同的测试场景,指定接 口功能,测试范围精准覆盖
对忽略规则屏蔽误报干扰
三个维度设置,测试过程中不断补充,逐渐缩小差异范围, 提高比对精确度。
各项指标实时监控
回放业务成功率、接口RTT指标、 执行机运行指标、各任务执行效率
icon特点优势icon
icon定位-故障快速恢复的保障 icon
icon痛点-当前存在的问题 icon
应急状态下联络沟通混乱
应急处置时各类信息分散,没有统一的信息发布平台,指挥人员对于整体处置状态, 人员到位情况缺少清晰的把控。
应急处置效率低
涉及运维、开发、测试、厂商、技术平台/数据库运维管、理者等多个角色之间的协作互通,费时费力。容易产生因信息不全面不对称,分析不透明导致处置低效,长时间找不到根因,导致小问题演变成大事件。
部分故障处置耗时长
各维度指标数据分散,排查问题时不聚焦,多个系统不同维度的切换,费时费力,问 题定界慢,难于全面直观的反映出是全局性问题还是本层系统问题,还是本层依赖中间件服务问题等。
故障处置过程不透明
无量化客观处置过程数据,生产问题根因分析难,改进难,相同的故障问题可能重复发生。

 

 
icon能力体系图 icon

通过建设应急指挥调度平台,实现故障的快速触发与通告、高效应急协同、快速的定位处置以及运行质量全面提升,实现各项运维数据不同维度的聚焦和全景化立体展示,实现沟通处置过程透明,提升应急 的组织、调度协调能力。

icon故障一体化关联视图 icon

系统运行视图立体化展示故障相关运维态势,实时展示系统运行总览、告警数据、事件数据、风险数据、舆情数据;呈现故障相关各个服务组在故障处置过程的操作步骤;为故障发展提供统一指挥参考全景图。

icon融合多端通信能力 icon

应急指挥调度平台作为应急指挥的中枢大脑,向下集成各类消息通信工具、视频会议系统、呼叫中心、视频、实时对讲等系统的接口,实现接口统一封装,统一-管理、统一调用;向上为上层应 用视图(大屏)提供信息调取请求、通信请求、会商请求、管理请求等基本能力调用接口,及音视 频数据推流能力。

iconOn Call List icon
icon应急会商icon
 
 一键建群
一键创建消息群组
一键会商
音视频会商能力集成,支持一键拉起会议
一键对讲
指挥调度平台集成数字对讲功能
对讲广播
指挥调度平台集成对讲广播功能
应急预案
查看应急管理平台的预案,并选择(推荐) 合适的预案,将预案地址放到消息群中
一键建群
一键创建消息群组
一键会商
音视频会商能力集成,支持一键拉起会议
一键对讲
指挥调度平台集成数字对讲功能
对讲广播
指挥调度平台集成对讲广播功能
应急预案
查看应急管理平台的预案,并选择(推荐) 合适的预案,将预案地址放到消息群中
icon相关荣誉icon

公司是混沌工程在国内商业化应用的最早一批实践者和推动者, 是信通院混沌工程实验室的发起者,并成为混沌工程实验室副理事长单位。争锋混沌工程故障演练平台获得信通院先进级认证!

产品推荐 查看更多>>
    问卷星智慧校园数据采集解决方案

    问卷星智慧校园数据采集解决方案,1所学校的数据采集,1个问卷星系统即可,内部系统深度集成,集中管理,高效协同。第三方平台系统集成,打通高校组织架构,多元化部署选择,维护全校数据安全。信息获取更灵活,数据管理更轻松。

    集中管理

    深度集成

    高效协同

    多元化

    唐库生活服务智慧门店管理系统

    “唐库数字化平台”是为商家/连锁门店提供集成了线下门店收银、线上小程序微商城、连锁店进销存、会员管理、营销工具系统、扫码聚合支付(含MISPOS)、屏幕客显广告于一体的;并且对接电子发票、外卖配送、银行信用卡积分等持卡人权益等等互联网三方平台的商家数字化系统。

    小程序商城

    微信小程序商家助手

    商品进销存ERP

    会员管理CRM

    励销云主动式获客智能销售系统

    励销云是一款国内领先的主动式获客智能销售系统,旨在帮助中小企业“低成本、高效率”的开发新客户和经营老客户;依托1.3亿+的企业数据覆盖能力,融合了新一代信息技术创新应用,形成了“找客-筛客-管客”的全流程智 能销售服务;是大数据、人工智能和移动互联网技术在销售领域的具体行业应用;分:励销独立版、励销企微版。

    主动式获客

    智能化销售

    数字化管理

    移动化办公