擎创夏洛克AIOps一体化数智运维管理平台_智能可观测性运维系统

立即咨询

立即试用

商务合作

擎创夏洛克AIOps一体化数智运维管理平台

擎创夏洛克AIOps一体化数智运维管理平台，融合智能可观测性运维与运维风险预警系统，通过AI算法实现全链路数据洞察与异常预判。提供基础设施监控、日志分析及智能告警，助力企业构建自动化运维体系，降低故障定位耗时，提升IT运维效率与稳定性。

立即咨询

首页

数字化产品

监控与运维

擎创夏洛克AIOps一体化数智运维管理平台

传统运维的挑战

业务感知笼统

监控工具众多竖并数据孤立
缺少关键系统的重点画像，交易变化感知不直观。交易链路跟踪难，缺乏从交易、应用系统到基础资源的全面感知

事前预测困难

目前数据消费场景只麓面向事中支持，仅依靠单指标预测手段单一，缺乏关键风险指标的定义，达不到时效性要求

事后分析不全

缺乏以业务为视角的运营分析能力，数据品类不齐全，生命周期管理不够精错，重要数据未留存

事中定位低效

缺乏妹合根因定界及定位分析的手佳。故障发生后排障不方便，排障效率较低，排障经验不能快速积累，缺乏数据的关联性，数据缺乏可观测性。

数据治理不体系

运维数据量大。类别多且非常分散。数据清洗、标签、格式化处理工作量大。缺乏数据质量。数据生命周期管理的总体教据治理规范

数智化运维的价值

全景观测

以上帝视角俯瞰业务系统全方位状况。以业务应用为对象观测多样化监控数据、日志数据和调用链数据。提升从交易、应用系统到基础资源的全面感知力。云上云下一体化，容器内外一体化

先知先觉

从智能健康风险预警中消弭80%的故障隐患。以业务为导向来判断风险程度

已知明决

历史数据可回溯，可复盘。历史经验可积累、可重用。降低运营成本，优化运营策略

即知即决

智能聚焦消除80%以上的无效告警。智能应急定界。确保及格线:30分钟业务恢复。实现优秀线:1-5-10（1分钟发现，5分钟定界，10分钟恢复）

数据底座

全品类运维数据的有效纳管与治理。运维数据方便。询、方便分析、方便消费。以业务为视角灵活编制运维数据

擎创解决之道

技管共施，治用并举，场景驱动，以终为始

一体化AIOps数智运维管理解决方案 icon

展现层

大屏：通过大屏进行事前、事中及事后的分析展现
中屏：通过桌面端运维门户接入
小屏：通过移动端设备接入台

一体化AIOps数智运维管理解决方案 icon

风险预警：构建业务运行风险体系，提供业务系统健康度的趋势分析和预测能力，及早发现系统隐患。

告警全周期管理：贯穿从告警产生、流转、分析、处置等环节，可以对运维工具的异常输出进行集成和治理，融合机器学习和专家知识赋能一线运维、并通过集成自动化第一时间恢复业务可用性

应急定界：可帮助运维人员在业务系统发生故障时，沉着定位故障源头，加速业务故障恢复效率。体系化整合多维度的运维数据和工具，结合运维对象关系和告警发生时序关系，用可观测的方式为运维人员提供处置恢复的依据

运营分析：通过系统画像、领导视图等运营分析场景，管理者可实时全面了解数据中心运行健康和风险，辅助决策

FinOps：构建面向运维成本管理的数据、流程的工具集，从财务角度出发，对IT资源投入产出效能进行管控分析

一体化AIOps数智运维管理解决方案 icon

数据中台：整合数据治理最佳实践数据生命周期及数据质量管理提供数据集市服务接口

对象模型：对接和纳管CMDB模型基于运维对象为中心建模，内嵌对象模型最佳实践

全景观测：基于eBPF提供云原生监测能力，侵入式/非侵入式的链路追踪能力，异常告警识别及分析诊断能力

算法服务：图算法、时序算法和文本算法，算法模型库管理，基于大模型等新型算法实验室

知识图谱：告警及运维知识的经验提炼总结，故障处理、应急处置操作推荐，对外部系统的知识服务化提供

一体化AIOps数智运维管理解决方案 icon

采控层：兼容自有采控和第三方采控工具，支持Agent和Agentless，整合主流的第三方工具:Zabbix、BPC、APM、Prometheus、日志、告警、ITSM、CMDB。

运维数据治理

2022年，中国计算机用户协会审计分会发布《金融机构信息系统运维数据治理能力成熟度评估规范》的团体标准。该标准确立了金融运维数据治理能力的成熟度模型和框架，规定了运维数据治理能力成熟度评估与持续改进的要求，适用于金融及相关机构信息系统运维数据治理能力的成熟度评估，也适用于信息系统运行过程中设计的非运维数据治理。通过对自身运维数据治理能力的评估，可明确与成熟度等级评定的差距及改进，为未来的业务连续性管理发展路径提供指导性参考。

运维数据治理能力成熟度模型 icon

治理能力成熟度等级

整体反映一个组织对运维数据治理过程与效果的能力水平，成熟度等级由低到高划分为起始級（1級），发展级（2級）稳健级（3級）、优秀级（4級），卓越级（5級），其中高成熟度等级包含自身及其之下等级的全部要求。

治理能力成熟度模型

运维数据治理能力模型包含运维数据治理能力框架和运维数据治理能力成熟度等级。运维数据治理能力框架中的能力域、能力项与运维数据治理能力成熟度等级定义映射形成运维数据治理能力成熟度模型。

数据治理：落地架构

数据治理：数据洞见统一关联建模是支撑场景的关键 icon

以运维对象为核心，关联日志、事件、指标、调用链、告警，形成可观测的上帝视角

数据治理:消费场景与数据要求 icon

智能场景-风险预警

场景简介：本场景主要面向业务系统，以风险管控为业务视角，通过风险指标、健康度风险模型、风险识别矩阵三块来构建风险防控管理体系，形成“事前预警、事中监控、事后分析”的自动化监测和健康度可视化能力，为生产事件风险识别、风险防控洞察保驾护航，提升二道防线的生产运营风险管控能力

风险预警

实现智能风险点探查、指标故障阈值条件设定及指标基线偏离度计算，针对风险点，提前向生产运行部门发出风险预警提示

风险监控

实现在风险事件期间，依托运维大数据及健康度风险模型算法，对风险进行识别和通知，对故障点进行排查和定位,提升事中风险定位的能力

风险复盘

围绕数据分析中心、报表统计中心等功能，实现对问题进行复盘和总结，对模型、参数、规则等进行优化完善，提升风险监测能力

需求痛点

风险管理要求提升

监管机构及管理层对信息科技风险管理二道防线要求提升，要
求进一步加强风险评估和监测力度，提升信息科技风险管理能力

现有方式难以总体把控

当前主要通过手工采集运营及运维指标数据，数据时效性延迟、准确度低，监测范围有限，难以对生产运营风险进行总体把控

解决的问题

提升常态化风险监测能力

通过数据聚合、分析、结合AI算法模型，提升自动化监测风险及时预警、通知能力。提升事前风险预警能力。

提升风险场景化分析能力

构建场景化分析能力，通过智能化数据分析，为故障定位提供宏观的证据链，辅助各平台快速解决问题

提升生产运营风险管理能力

从事前、事中、事后全方位建立风险防控体系，从风险管控角度，实现生产系统数据的融合贯通，打破各自为政，信息孤岛，促进生产系统数据标准化

用户角色

面向行领导及风险管理部

从全行整体视角，掌握重点系统健康度全貌、重大风险事件及影响面，辅助生产运营决策。

技术人员主要面向金融科技部

通过应用九宫格等页面，围绕技术、业务、服务等指标维度进一步对故障系统定位、风险识别

后台管理人员|主要面向风险管理部内部

在风险事件后可通过平台后台能力，实现问题复盘、模型调参与试算、规则优化和统计分析的能力

规划思路

制定风险指标体系

聚焦风险指标，打造指标的异常检测和趋势预测能力，为健康度模型提供基础数据排摸重点系统数据情况，制定适用于风险管理的指标体系

构建健康评分模型

依托指标体系，围绕基本面和风险盘构建健康度评分模型体系，为风险识别矩阵提供能力支持量化评估依据，通过分级权重提升健康评分的准确度及可配置性

实现风险识别矩阵

以风险指标、健康评分体系为基础，构建风险识别矩阵模型通过风险矩阵快速识别风险点及影响面，实现风险事前、事中、事后的闭环管控，提升生产运营风险管控能力

案例成果

全景应用系统墙

面向管理层，展现全行重点应用系统健康度全貌，并通过呼吸灯颜色识别、展示系统的健康情况
不同颜色代表系统的不同风险等级，红色为风险程度较高，依次减弱。健康等级分为四种，正常颜色（健康）、黄色（一般）、橙色（较差）、红色（很差）支持通过全局时间轴回溯生产历史事件，识别风险点和对应的系统健康情况

案例成果

决策层：多维观测->告警通知->预知风险->辅助决策

全景应用系统墙

面向管理层，展现全行重点应用系统健康度全貌，并通过呼吸灯颜色识别、展示系统的健康情况，不同颜色代表系统的不同风险等级，红色为风险程度较高，依次减弱。健康等级分为四种，正常颜色（健康）、黄色（一般）、橙色（较差）、红色（很差）支持通过全局时间轴回溯生产历史事件，识别风险点和对应的系统健康情况

应用健康详情

当主页有风险点系统，支持通过全景应用墙下钻，围绕系统、业务、服务的重要指标项可查看单系统的具体运行情况和引发健康度的指标快速锁定影响业务的大致问题及影响面分析，辅助生产运营决策

生产运维中心监控

通过风险模型的有效识别，对生产运行有风险的系统进行告警通知，通过风险告警看板，可实时查看问题系统生产运行健康状态，风险主要原因，涉及系统面向管理，可及时预知风险与业务影响范围，涉及系统，
从而识别受灾面面向技术，可以提供辅助查证、快速定位问题的支撑能力

风险识别矩阵

辅助快速精准的提高审计、内控合规、风险管理等工作的水平与成效
通过风险矩阵全方位的识别行内类系统业务健康度、风险点以及影响面

建设成效

达到事前预警和事中监控的目标
生产上线后，多次及时发现应用系统的风险事件
已成为生产运行风险管控的重要手段
应用健康评分模型的智能化创新，可通过学习历史数据后自动反馈到模型，自动调整现有模型的规则、参数，从而进一步提升模型的准度和命中率

智能场景-告警全周期管理 icon

场景简介：随着企业内数字化应用架构变得越来越复杂，运维团队需要处理的告警呈指数级增长，企业期望从告警产生、流转、分析、处置等环节有一套贯穿全生命周期的解决方案，可以对运维工具的异常输出进行集成、对多源告警进行治理、使用机器学习及专家知识分析问题、并提供自动化集成能力第一时间自动恢复业务可用性

需求痛点

缺乏统一的告警管理体系
信创替换
告警的分析和处置能力不足
专注在真正的故障中，减少无效告警

解决的问题

告警分散且数量多，难以有效治理

关系复杂、排障困难，难以识别相互之间的影响

历史处置方案及知识难以有效借鉴

占用大量专家资源，专家经验难以沉淀

难以获取故障的全貌和上下文信息

处置效率慢，缺乏自动化排查及分析手段，无法快速定位并修复问题

用户角色

一线值班人员

7*24H值班、负责对告警进行操作和处理、根据情况发起工单申请、判断是否需要应急

领域专家

对一线进行支持、白名单确认（如过滤规则、维护窗口）、策略管理（压缩、处理、知识总结等）

应急指挥

应急场景下进行应急指挥及调度

告警治理岗

负责对告警平台的日常运营进行告警治理及督办

规划思路

建立统一告警管理

聚焦统一告警管理。把所有监控源的数据统一上收、完善统一的告警标准、丰富、让告警能够在合适的时间、通过合适的渠道发送到正确的人员手中。标准化-过滤-压缩-维护期-通知

智能告警分析及处置

告警诊断分析
告警关联收敛;相似告警识别，业务影响分析
已知故障识别;关联内外部知识库根因推荐/定界
故障处置
处置模型匹配;处置策略推荐

自动处置;手动触发处置
总结回顾
优化监控策略;优化处置模型
模式识别及挖掘;工单补建

告警运营决策

聚焦告警的治理，降低成本、提高效率、
降低告警通知量及应急门槛
关联模式挖掘;告警压缩治理
告警摘要分析;告警抖动敏感分析
告警质量分析;告警延时策略分析

案例成果

可视化的告警治理能力

案例成果

告警360视图-提供相似告警识别、关联变更及知识库、自动化分析及处置平台等能力

建设成效

管理集中化：统一管理来自不同专业领域的多个监控源的告警，并进行有效的告警数据治理。
操作流程化：统一全数据中心所有告警的操作流程和管理规范。
分析智能化：专家经验及智能分析手段贯穿产品的使用流程，实现了相似告警识别、智能压缩、告警360视图、关联数据中心事件处置知识体系等。在告警工作台事件经理进行处置时，即时查询所有分析结果。
处置自动化：基于智能化分析结果，推荐针对告警的操作，支持手动触发及自动触发，大大提高告警处置效率。。

智能场景-应急定界

场景简介：应急定界的方案定位是帮助运维人员以业务故障驱动为起点，第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台，纳管应用及基础组件，提供业务系统监测、及时告警、排查分析能力。通过告警、指标、日志、链路等运维数据异常检测的能力，结合运维对象关系、告警发生时序关系，快速智能地得出故障定界的结论，匹配处置预案，并用可观测的方式为运维人员提供决策依据

客户画像

需求痛点

缺乏多视角的观测，期望能从业务和应用视角观察运维架构，提供问题排查分析视角需要有算法支撑的应急分析能力，提供处置推荐场景支撑
需快速总结故障对业务造成的影响及范围，快速排障定界，事后复盘并形成知识沉淀

解决的问题

难以高效协作
故障处置协作成本大，监控体系不统一管理效率不够高
工具难整合
专业领域能力较强，跨领域分析能力弱，发现问题不精准
数据不体系
监控数据分散，未统一建模，质量不稳定，难以支撑复杂场景

用户角色

运行管理

保障业务及相关IT资源的运行连续性，故障中需要和各个运维团队、业务部门进行大量沟通协调。沟通过程中经常会被专业领域挑战故障的真实性。

应急指挥

发生严重故障时临时任命，需要具备快速判断全局性故障、定位和解决问题的能力，要让团队能快速判断故障原因并提出解决方案

领域专家

需要熟练掌握各类业务系统、云、网络等专业领域技术，针对具体故障能快速产出恢复系统的解决方案，并在事后做根因回顾，沉淀经验转变成可复用的预案

规划思路

提升整体的可观测能力

提升整体的可观测能力,整合专业领域工具，提高业务故障驱动下的应急分析能力，数据统一汇总破除信息孤岛，治理以运维对象和告警为主的关键数据

工具化分析能力

将应急分析能力工具化，提升应急定界和处置的成功率，全面数据治理支持复杂分析场景，形成系统化的定障沉淀机制

自动化根因定位和恢复

实现复杂场景的根因定位，运维数据关联的自动发现，自动匹配恢复预案，结合大模型实现交互式排障分析，一键推理总结

案例成果

跨业务系统故障分析

业务紧急故障的发生范围会横跨多个业务系统，这些系统可能共享了存储和网络等基础设施，也可能处于同一条业务链路从而互相影响，需要结合告警时序和对象拓扑关系快速定位故障的源头

相关问题：共享物理机宕机影响多个业务，云存储性能问题影响多个微服务，下游业务系统故障影响上游交易正常完成

单业务系统故障分析

单个业务系统下属的资源故障，往往是整个事件问题的源端，这些对象可能是微服务，数据库，消息队列等逻辑对象，也可能是云端的服务和网络组件，通过分层分类观测，并结合分析工具准确定位处置对象
相关问题：消息队列拥塞导致交易异常，虚拟机故障影响可用性，云上负载均衡影响应用性能能

应用交易指标分析

业务变更或者某些交易维度的异常也经常会造成业务系统的局部故障，包括交易类型，交易渠道，分支机够等业务统计维度。通过聚焦热点异常维度和历史同环对比等分析工具，快速锁定具体的业务问题，迅速采取对应交易类型限流或版本回滚等恢复操作
相关问题：交易指标的异常多维度发现特定交易维度的错/慢故障故障时段的交易日志分析查

微服务链路分析

微服务化后的请求调用链路会很复杂，组件或微服务交互时，可能由于服务状态，数据访问，资源瓶颈等原因造成业务链路故障，对于微服务多层链路和相关指标的可观测，是定位分布式架构下故障原因的必备手段
相关问题：微服务链路故障，微服务性能问题，微服务架构治理

智能场景-运营分析

场景简介：本场景主要围绕着生产运行、经营决策两个维度，通过对配置、性能、业务等运行数据进行加工计算，形成可量化运营效果、可衡量发展方向的运营数据，以低代码平台为底座，运营分析业务目标为导向，运营数据为抓手，可视化的形态提供管理和决策依据。
生产运行：在生产运行方面,重点监测数据中心的服务质量、资源利用率、基础设施效能等关键运维指标,实现故障预测、容量评估、配置优化、节能降耗等,助力运维人员提升数据中心的运营效率。
经营决策：在经营决策方面,进行服务需求评估、目标考核、投资规划、业务规划等方面的支持,通过业务量预测、成本分析、价值评估等手段,提供决策依据,以指导数据中心战略发展方向

客户画像

需求痛点

无论IT建设投入多少，始终没有适合运维领导关注的视角无法及时掌握执行者的执行成效无法感知到管理者的管理方向是否与现状匹配。

解决的问题

为决策者提供个性化的全局视角
掌握生产环境的整体运行情况
掌握运维管理的整体情况
为决策提供精准的数据支撑域

用户角色

领导者：掌握全局视角
体现管理者关注重点，体现数据中心管理模式，明智、快速决策的支撑
执行者：执行者工作重点的体现
局部重点体现，执行者工作重点的体现，明智、快速决策的支撑。

规划思路

TLS证书为您的业务提供了一种具有吸引力的收入来源。有几个行业因素使加密成为浏览器信任网站的要求。因此，现在我们的互联网要求每个网站都必须具有TLS证书。

调研/确定场景目标

充分的客户调研，是运营分析的关键
组织架构调研
管理模式调研
应用架构及技术栈调研
痛点调研
工具情况调研
数据调研
确定场景目标
业务目标;展示目标;场景边界

场景需求梳理

场景故事
用户旅程
核心业务逻辑
页面草图
数据要求
外围依赖

数据梳理

确定重要数据范围
数据来源
数据模型
数据架构
数据采集
数据任务
数据质量要求
数据规范和标准
数据生命周期
数据服务

设计实施

页面设计
风格确认
布局确认
原型设计
终端覆盖大屏、PC、移动端
页面配置
前端配置
数据对接

案例成果

运行现状-数据中心运行监测

数据中心整体运行现状，即业务交易、应用组件、IT，设备等的运行情况，数据中心IT资产情况，包括各种设备分布及变化态势，重要业务系统运行情况分析，运维效率分析，包括故障应急、服务请求、多种变更等工作的效率

经营管理-IT资源使用成本核算

IT资源核算，以项目、部门等多角度展现科技部门的IT成本分布，从财务视角细算IT资源使用情况，量化IT投入，提供多种分析视角来检视IT资源使用效率，提供IT项目全生命周期的IT资源成本分析

运维分析-监控运营中心

周期性业务系统多维度分析，综合体现业务情况，关键业务系统交易变化分析;从业务、运维服务、研发效能、性能、资源等维度对，业务系统进行综合画像

运维决策-运维数字化门户

提供统一的运维工具访问入口，集中认证管控，打通运维工具间的屏障，提供端到端运维服务，提供统一的运维分析入口，打通运维数据壁垒，全面感知运营成效

擎创运维大模型

基于大模型的告警分析:故障自动根因定位告警记录了故障发生时的各类异常现象，其分析过程通常依赖于运维专家对告警文本的理解和经验性的分析过程。预训
练大通言模型的通理能力使其能够根辗给定指寺对输入上下交进行理解和分析。因此，利用大模型的通报能力。可以指示大模型按照专家的分析流程对告警进行分析，逐步完成对告警的理解，故障的分析，最终定位故障的根因并生成相应的故障报告

基于大模型的检索增强：融合公域/私域运维知识 icon

预训练的大语言模型难以保证记忆了所有的运维知识。然而，基于微调方式为大模型注入新的知识所需计算资源大，且难以适应系统更新所带来的知识更新。因此，为了应对多样的运维需求，基于检索增强为大模型注入各类公域与私域的运维知识是一种符合运维实际的方法。

擎创夏洛克AIOps一体化数智运维管理平台架构 icon

风险预警

构建业务运行风险体系，提供业务系统健康度的趋势分析和预测能力，及早发现系统隐患

应急定界

可帮助运维人员在业务系统发生故障时，沉着定位故障源头，加速业务故障恢复效率。体系化整合多维度的运维数据和工具，结合运维对象关系和告警发生时序系，用可观测的方式为运维人员提供处置恢复的依据

告警全周期管理

贯穿从告警产生、流转、分析、处置等环节，可以对运维工具的异常输出进行集成和治理，融合机器学习和专家知识赋能一线运维、并通过集成自动化第一时间恢复业务可用性

运营分析

通过系统画像、领导视图等运营分析场景，管理者可实时全面了解数据中心运行健康和风险，辅助决策

FinOps

构建面向运维成本管理的数据、流程的工具集，从财务角度出发，对IT资源投入产出效能进行管控分析。

产品推荐

千匠星云全渠道业务中台

千匠星云全渠道业务中台，它整合门店库存管理、商品管理、会员营销管理等核心功能，打通线上线下壁垒。助力企业精准管控库存，优化商品流转，依据会员数据开展个性化营销，全方位提升运营效率，实现全渠道业务的高效协同与智能增长。

免费试用

查看详情

实在智能智能信贷审核解决方案

实在智能智能信贷审核解决方案，搭载智能文档识别与 PRA 智能工单处理机器人，深度嵌入信贷平台实时抓取全渠道工单。自动化解析、审核信贷信息，人工仅需复核结果即可快速提交，大幅缩减录入与审核耗时，提升信贷流程效率与精准度，助力金融机构降本增效，优化风控管理体验。

免费试用

查看详情

指令集物联网平台

指令集物联网平台，基于物联网操作系统，集成设备管理与监控系统。助SEO优化从业者精准抓取“物联网设备管理”“实时监控”等行业关键词，优化官网技术方案内容，提升在物联网领域搜索排名，强化设备全生命周期管理解决方案的数字化曝光与精准获客能力。

免费试用

查看详情

奇点云SimbaMetric指标管理平台

奇点云SimbaMetric指标管理平台，是全新的指标统一管理与开发平台，能够支撑企业围绕指标需求场景提供一套完整的指标管理与开发体系。指标管理平台承载了指标的业务需求、技术需求以及管理需求，提供了指标“提出”、“定义”、“设计”、“开发”、“使用”、“修改”、“下线”等全生命周期的管理功能，实现业务元数据与技术元数据的全面拉通，为经营分析、风险管理、领导决策等提供管理规范、指标统一、数据易用的产品功能保障。

免费试用

查看详情