icon背景icon

云规模提升,云上不可预测、不可控、复杂性高等特性导致故障频发,造成安全事故和经济损失。

icon产品概述icon
混沌工程(Chaos Engineering)
混沌工程是通过主动向系统引入软硬件异常状态或扰动,制造故障场景,并根据系统在各种压力下的行为表现确定优化策略的一种系统稳定性保障手段。2015年,网飞公司(Netflix)发布《混沌工程理念》,公开其在开源项目中实施混沌工程的原则、工具和方法论。同时期,国内众多迈向分布式架构、拥抱云化的企业,也开始引入并实践混沌工程。
腾讯云混沌演练平台(Chaotic Fault Generator)
面向企业级客户和个人用户,提供开展混沌工程实验的平台和工具,基于混沌工程理念,提供故障演练全生命周期管理方案,源于腾讯云内部最佳实践,守护自研产品稳定上云。
icon产品概述-产品特性icon

混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现务容灾隐患、验证高可用预案的有效性,实现稳定运营。

icon产品功能-丰富的故障动作库icon

混沌演练平台提供IaaS 到 Paas各类故障注入场景,包含近 200 种故障原子能力,支持灵活编排组合。支持用户自定义故障动作脚本,满足业务定制化需求。

 

icon产品功能-演练计划icon

满足混沌GameDay设计要素,帮助组织者快速组织混沌演练。

icon产品功能-行业经验库icon

平台提供电商、游戏、多媒体等多个行业的演练经验模板,覆盖跨可用区容灾等多个典型应用场景。用户可根据自身业务需求,快速高效复用成熟解决方案,提高演练效率。

icon产品功能-可视化演练icon

查看实例资源分布可视化视图,降低操作成本,精准控制爆炸半径。故障动作可视化编排,演练中实时查看故障动作执行状态(成功/失败/执行中)和注入效果。

icon产品功能-安全策略icon

为保障业务的演练安全,混沌演练平台提供多项安全防护策略:权限管控:接入了cam鉴权,所有操作对象实例均基于当前帐号的被授权范围,确保不会发生越权操作。故障恢复:所有故障动作均对应相应的回滚动作,即使回滚失败,也有相应的人工处理预案作为兜底。监控护栏:演练中实时查看业务稳态指标曲线,监测业务健康状态,护栏规则触发后演练自动停止。

icon产品功能-演练报告icon

平台提供完备的可视化演练报告,内容包括演练基本信息/数据统计/实例资源分布图和演练日志等。一键导出演练报告,复盘记录问题,打造演练全生命周期闭环。

icon产品架构icon
icon应用场景-跨可用区容灾演练(通用)icon
云上跨可用区部署是一种常见的容灾架构,在单可用区因为电力、网络、自然灾害等情况导致可用区故障时,灾备可用区仍然能够对外提供服务,保证服务的连续性。
通过混沌演练您可以:
验证云上跨可用区容灾架构的有效性
了解在可用区故障时业务的容灾表现及RTO和RPO
检验在发生可用区故障时,告警策略的有效性
icon应用场景-混合云容灾演练(通用)icon
为了提高业务容灾能力,混合云部署已成为企业上云的常用选择,合理的架构设计能有效降低混合云服务故障概率和影响。混沌演练平台提供便捷的实验手段,帮助您开展混合云场景下的故障演练。
通过混沌演练,您可以:
验证混合云容灾架构的有效性
了解在腾讯云服务不可用时业务的故障表现
检验故障告警的有效性
混合云部署常态化故障演练
icon应用场景-网络故障演练(流媒体)icon
在流媒体直播系统中,正在直播的流媒体通过网络传输给用户,用户可能随时接入网络。直播系统内主播设备可能通过专网或ADSL网分布的不同的地方,当流媒体服务器出现网络故障时,直播观看体验无法确保。因此,网络故障场景容灾非常重要。
通过混沌演练平台,您可以:
检验后台模块及客户端在各种网络故障场景下的容灾能力
检验在发生网络故障时,异常告警的有效性和实时性
icon应用场景-服务压力演练(电商、游戏)icon
在电商活动、秒杀场景中,瞬时高并发访问可能导致关键服务面临极限高压甚至崩溃,出现页面卡顿、请求失败,进而导致业务受损。腾讯云混沌演练平台可以帮助您提前发现此类问题,规避风险。
通过混沌演练,您可以:
验证服务在压力场景下的自治能力
验证服务在压力场景下的表现
验证服务在压力场景下告警的有效性
icon快速入门-演练主要流程icon
icon客户案例-同城双活容灾演练icon
演练目标:验证CLB、自建服务、CDB、Redis等服务对于过载、冗余场景故障时,是否能够正常提供服务。稳态指标:云监控配置基础性能指标和告警。实验假设:分别对业务不同层次应用进行故障注入,能够实现业务稳态指标观测。实验方法:通过腾讯云混沌演练平台选择对应云产品故障进行操作。结果验证:通过调用云监控/云压测的结果,观测业务影响。
客户收益: 业务对于Redis重度依赖,Redis单机出现过载情况时,业务会卡住。CLB单可用区故障时,没有配置购买新CLB的脚本,导致人工切换时长较高。如果CLB没有会话保持,故障无法感知;如果有会话保持,会有15s的切换时间。nginx后台的tomcat切换:会有30s的切换时间。
icon客户案例-异地多活容灾演练icon
演练目标:通过腾讯云混沌平台进行系统故障演习,验证主力可用区故障发生后,两地三中心、云上云下容灾架构的有效性及故障应急处理机制。稳态指标:云监控配置基础性能指标及服务质量监控。实验假设:关键产品在面临单可用区故障时,架构能够实现业务容灾。实验方法:通过腾讯云混沌演练平台选择对应云产品故障进行操作。 结果验证:验证两地三中心、云上云下容灾架构的有效性。
客户收益: CLB外网IP被封堵后,智能DNS能够快速踢除异常接入点、业务的多域名重试有效。存储层具有单可用区及云上云下容灾能力,业务数据成功切换。主力可用区逻辑层具有单可用区及云上云下容灾能力。发现主力可用区安全组超限问题。
icon行业影响力icon
产品推荐 查看更多>>
    OneCloud多云管理平台

    云联万维多云管理平台综合基础设施资源运维管理平台,帮助企业用户更有效率地管理使用分布在多 云(多个私有云/多个公有云)或混合云场景下的 IT 基础设施资源。

    高性价比

    高可用

    腾讯云文件存储CFS

    为您提供安全可靠、可扩展的共享文件存储服务。CFS 可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。

    管理界面简单、易使用,实现无缝集成

    成本最优,按需付费,弹性扩展

    提供安全可靠、可扩展的共享文件存储服务

    腾讯教育科研云解决方案

    腾讯教育科研云解决方案,提供腾讯公有云、私有云和混合云的云资源基础,并结合物联接入科研硬件设备和云端部署科研软件环境,为高校提供一套完整的科研基础设施。

    提供腾讯公有云、私有云和混合云的云资源基础

    结合物联接入科研硬件设备和云端部署科研软件环境

    为高校提供一套完整的科研基础设施