
传统运维的挑战
数智化运维的价值
擎创解决之道
技管共施,治用并举,场景驱动,以终为始
一体化AIOps数智运维管理解决方案

一体化AIOps数智运维管理解决方案
风险预警:构建业务运行风险体系,提供业务系统健康度的趋势分析和预测能力,及早发现系统隐患。
告警全周期管理:贯穿从告警产生、流转、分析、处置等环节,可以对运维工具的异常输出进行集成和治理,融合机器学习和专家知识赋能一线运维、并通过集成自动化第一时间恢复业务可用性
应急定界:可帮助运维人员在业务系统发生故障时,沉着定位故障源头,加速业务故障恢复效率。体系化整合多维度的运维数据和工具,结合运维对象关系和告警发生时序关系,用可观测的方式为运维人员提供处置恢复的依据
运营分析:通过系统画像、领导视图等运营分析场景,管理者可实时全面了解数据中心运行健康和风险,辅助决策
FinOps:构建面向运维成本管理的数据、流程的工具集,从财务角度出发,对IT资源投入产出效能进行管控分析

一体化AIOps数智运维管理解决方案
数据中台:整合数据治理最佳实践数据生命周期及数据质量管理提供数据集市服务接口
对象模型:对接和纳管CMDB模型基于运维对象为中心建模,内嵌对象模型最佳实践
全景观测:基于eBPF提供云原生监测能力,侵入式/非侵入式的链路追踪能力,异常告警识别及分析诊断能力
算法服务:图算法、时序算法和文本算法,算法模型库管理,基于大模型等新型算法实验室
知识图谱:告警及运维知识的经验提炼总结,故障处理、应急处置操作推荐,对外部系统的知识服务化提供

一体化AIOps数智运维管理解决方案
采控层:兼容自有采控和第三方采控工具,支持Agent和Agentless,整合主流的第三方工具:Zabbix、BPC、APM、Prometheus、日志、告警、ITSM、CMDB。

运维数据治理
2022年,中国计算机用户协会审计分会发布《金融机构信息系统运维数据治理能力成熟度评估规范》的团体标准。该标准确立了金融运维数据治理能力的成熟度模型和框架,规定了运维数据治理能力成熟度评估与持续改进的要求,适用于金融及相关机构信息系统运维数据治理能力的成熟度评估,也适用于信息系统运行过程中设计的非运维数据治理。通过对自身运维数据治理能力的评估,可明确与成熟度等级评定的差距及改进,为未来的业务连续性管理发展路径提供指导性参考。
运维数据治理能力成熟度模型

数据治理:落地架构

数据治理:数据洞见统一关联建模是支撑场景的关键
以运维对象为核心,关联日志、事件、指标、调用链、告警,形成可观测的上帝视角

数据治理:消费场景与数据要求

智能场景-风险预警
场景简介:本场景主要面向业务系统,以风险管控为业务视角,通过风险指标、健康度风险模型、风险识别矩阵三块来构建风险防控管理体系,形成“事前预警、事中监控、事后分析”的自动化监测和健康度可视化能力,为生产事件风险识别、风险防控洞察保驾护航,提升二道防线的生产运营风险管控能力
需求痛点
解决的问题
用户角色

规划思路
案例成果
全景应用系统墙

案例成果
决策层:多维观测->告警通知->预知风险->辅助决策
建设成效
达到事前预警和事中监控的目标
生产上线后,多次及时发现应用系统的风险事件
已成为生产运行风险管控的重要手段
应用健康评分模型的智能化创新,可通过学习历史数据后自动反馈到模型,自动调整现有模型的规则、参数,从而进一步提升模型的准度和命中率
智能场景-告警全周期管理
场景简介:随着企业内数字化应用架构变得越来越复杂,运维团队需要处理的告警呈指数级增长,企业期望从告警产生、流转、分析、处置等环节有一套贯穿全生命周期的解决方案,可以对运维工具的异常输出进行集成、对多源告警进行治理、使用机器学习及专家知识分析问题、并提供自动化集成能力第一时间自动恢复业务可用性
需求痛点
缺乏统一的告警管理体系
信创替换
告警的分析和处置能力不足
专注在真正的故障中,减少无效告警
解决的问题
用户角色

规划思路
案例成果
可视化的告警治理能力

案例成果
告警360视图-提供相似告警识别、关联变更及知识库、自动化分析及处置平台等能力

建设成效
管理集中化:统一管理来自不同专业领域的多个监控源的告警,并进行有效的告警数据治理。
操作流程化:统一全数据中心所有告警的操作流程和管理规范。
分析智能化:专家经验及智能分析手段贯穿产品的使用流程,实现了相似告警识别、智能压缩、告警360视图、关联数据中心事件处置知识体系等。在告警工作台事件经理进行处置时,即时查询所有分析结果。
处置自动化:基于智能化分析结果,推荐针对告警的操作,支持手动触发及自动触发,大大提高告警处置效率。。
智能场景-应急定界
场景简介:应急定界的方案定位是帮助运维人员以业务故障驱动为起点,第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台,纳管应用及基础组件,提供业务系统监测、及时告警、排查分析能力。通过告警、指标、日志、链路等运维数据异常检测的能力,结合运维对象关系、告警发生时序关系,快速智能地得出故障定界的结论,匹配处置预案,并用可观测的方式为运维人员提供决策依据
客户画像
用户角色

规划思路
案例成果
智能场景-运营分析
场景简介:本场景主要围绕着生产运行、经营决策两个维度,通过对配置、性能、业务等运行数据进行加工计算,形成可量化运营效果、可衡量发展方向的运营数据,以低代码平台为底座,运营分析业务目标为导向,运营数据为抓手,可视化的形态提供管理和决策依据。
生产运行:在生产运行方面,重点监测数据中心的服务质量、资源利用率、基础设施效能等关键运维指标,实现故障预测、容量评估、配置优化、节能降耗等,助力运维人员提升数据中心的运营效率。
经营决策:在经营决策方面,进行服务需求评估、目标考核、投资规划、业务规划等方面的支持,通过业务量预测、成本分析、价值评估等手段,提供决策依据,以指导数据中心战略发展方向
客户画像
规划思路
TLS证书为您的业务提供了一种具有吸引力的收入来源。有几个行业因素使加密成为浏览器信任网站的要求。因此,现在我们的互联网要求每个网站都必须具有TLS证书。
案例成果
擎创运维大模型
基于大模型的告警分析:故障自动根因定位告警记录了故障发生时的各类异常现象,其分析过程通常依赖于运维专家对告警文本的理解和经验性的分析过程。预训
练大通言模型的通理能力使其能够根辗给定指寺对输入上下交进行理解和分析。因此,利用大模型的通报能力。可以指示大模型按照专家的分析流程对告警进行分析,逐步完成对告警的理解,故障的分析,最终定位故障的根因并生成相应的故障报告

基于大模型的检索增强:融合公域/私域运维知识
预训练的大语言模型难以保证记忆了所有的运维知识。然而,基于微调方式为大模型注入新的知识所需计算资源大,且难以适应系统更新所带来的知识更新。因此,为了应对多样的运维需求,基于检索增强为大模型注入各类公域与私域的运维知识是一种符合运维实际的方法。

擎创夏洛克AIOps一体化数智运维管理平台架构



