
云原生、分布式架构下的运维挑战
云原生、分布式架构下,运维与工程实践上面临五大挑战:诊断链路复杂、数据分散、MTTR偏长、专家依赖与操作安全风险。

大模型时代下需要重新设计产品
对话理解 → 事件洞察 → 智能协同 → 自动执行 → 经验沉淀学习优化。

传统AIOps vs 源启智能运维助手


产品定位及核心能力
面向SRE的智能运维助手:以业务体验为牵引,实现从洞察、诊断到自愈的闭环自治,构筑业务韧性。

产品功能架构

目标:自治化基础设施的核心引擎
通过AI技术,让基础运行支撑平台具备预测、决策与自愈能力,实现基础设施的智能化运营。
数据驱动与预决策能力
构建智能决策引擎,利用异常检测、根因分析、策略优化等算法,实现从容量规划到故障自愈的智能化决策。
从基于规则的"事后响应”逐步演变为基于AI模型的“事前预测”和“事中优化”。
可信赖的人机协同
用自然语言查询系统状态和决策原因,将系统的感知、分析、决策过程通过图表、链路等形式直观展示,并将置信度与不确定性量化,按需请求人类干预。
安全闭环的执行能力
构建安全、可靠执行决策并持续学习的能力,形成一个"感知-决策-执行-反馈”的自动强化闭环。

操作区域合一
1、友好的桌面IDE:学习成本低,上手快; 2、对话入口:使用自然语言进行交互;
3、全局搜索与项目化管理; 4、每次排障都是项目资产; 5、推荐操作按钮 AI智能引导下一步。

交互范式 - 对话驱动 + 命令面板 + 任务工作流
既能 ”自然语言交互",也能 ”跑标准化命令或工作流",满足不同熟练度用户。

本地优先,深度文本分析引擎
针对GB超级大日志,通过 “本地精炼+量化分析” 实现高效、安全的故障诊断。

诊断工作流与知识沉淀
通过统一的知识管理平台和智能检索适配,实现知识资源的高效利用和团队经验的有效传承。

全流程的故障智能诊断
告警的智能处理与故障自愈
终局之路:从"人肉运维"到"无人驾驶”。

价值
价值一、解放双手:将运维人员从重复性工作中解放出来,专注于更有价值的业务创新。
价值二、极速响应:故障响应和处理时间缩短95%以上,实现7x24小时无人值守。
价值三、稳定可靠:避免人为操作失误,提升系统变更的稳定性和可靠性。
统一的多场景智能运维助手
扩展能力,构建开放生态
内置和扩展诊断工具,满足各种场景下的故障和数据处理。
5+ 已内置工具 20+ 已集成MCP工具 30+ 诊断流模板

扩展示例:集成Kubernetes管理IDE
· IDE支持本地kubeconfig文件同多个Kubernetes 集群进行交互
· 统一的API认证及鉴权模式,包括Kubernetes 资源 API 以及封装后的业务API
· 基于资源的RBAC授权模式。
· 基于OIDC的IDtoken认证及Kubernetes RBAC 鉴权
· 基于OIDC的IDtoken/基于ServiceAccount 的服务账号,统一的RBAC配置

典型故障诊断场景

数据关联驱动的根因定位与运维效率提升
为满足金融行业运维标准体系 (1/5/10) 与业务连续性要求,基于大模型多智能体的MCP统一架构,实现跨域数据集中治理与智能诊断服务化,统一工具接入标准与关联分析框架,支撑多场景云原生运维。助力信创改造与高可用/灾备建设,协同构建”可观测一智能诊断一自动化处置”"的统一平台,全面满足行业合规与自主可控要求。



