icon 智能运维AlOpsicon

智能运维(AIOps),是指将人工智能算法应用于分析运维大数据。有了AIOps,当 IT出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。

icon日志易应用于智能运维icon
质量保障

通过多种智能运维算法,实现异常自动检测、故障根因分析。

效率提升

通过告警归并、LogReduce数据概要、KPI相关度计算等,让分析人员快速聚焦主要问题。

成本管理

通过时序预测、性能瓶颈分析等实现性能优化及成本管理。

icon产品特点icon
运维生态与智能运维
自动化部署
icon功能特点icon
机器学习
智能运维应用回归、分类、聚类等几十种算法,开箱即用,适用场景丰富。
智能告警
智能运维应用回归、分类、聚类等几十种算法,开箱即用,适用场景丰富。
智能异常检测
依据平台的智能算法,智能运维可自动判断各类指标异常与否,无需用户手动设定监控阈值。
 
智能决策分析
对多维数据集指定目标字段的临界点后,自动定位得到影响最大的组合,实现快速修复。
 
icon产品架构icon
数据转换及输入
异常检测算法,依赖时序数据来实现; 而运维环境中,大量数据为非结构化数据,需要一个便捷的方式,将非结构化数据转换成时序数据;
支持的数据源: 监控统的结果数据; BPC的时序数据; 日志原始明细数据; 其他数据库记录等数据;
智能运维与日志管理平台无缝对接,借助日志平台的SPL功能,快速实现给智能运维供数,用户无需手工处理/转换数据。
动态阈值
静态阈值,很难配置随时间变化的高低值; 需要维护很多白名单来提高精度;
所有数据转换成时间序列数据; 实时检测,并叠加进历史数据集; 提供误报反馈输入机制;
根据历史数据规律告警,比阈值更精准; 违反历史规律,准实时预警,主动预防隐患。
异常检测
没有发生过的故障,不好设置阈值告警; 大量无规则日志,不好发现里面是否有异常;
通过机器学习,识别日志模式和各模式占比,当新产生的数据,违反历史模式和占比时,产生告警;
无需前置工作,就可以发现业务运行是否发生了明显的反常现象;通过简单标注,就可以发现特定业务是否发生了孤僻事件。
服务相关性分析
动态阈值会产生海量预警事件; 人工无法肉眼洞察事件关联性; 预警事件的影响性无法度量;
对象间的依赖关系从CMDB导入; 预警事件做时间第一维度关联/聚合; 预警事件基于对象做第二层聚合;
预警事件是否真实影响业务,清晰可见; 事件的时间点,易于查找。
指标相关性分析
动态阈值会产生海量预警事件; 人工无法肉眼洞察事件关联性; 预警事件的影响性无法度量;
对象间的依赖关系从CMDB导入; 预警事件做时间第一维度关联/聚合; 预警事件基于对象做第二层聚合;
预警事件是否真实影响业务,清晰可见; 事件的时间点,易于查找。
根因分析
大规模 IT 环境下,一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中,找到最紧迫最要紧的那个?
通过皮尔逊系数计算相关度,快速定位出引起故障的真正原因,提升故障治愈效率,支持数十万KPI相关性秒级计算;
预警事件是否真实影响业务,清晰可见; 事件的时间点,易于查找。
瓶颈分析
影响业务KPI指标维度众多,大多数情况只能分析单KPI维度进行瓶颈排查,无法快速分析多KPI之间的权重关系,找出真正影响因素?
分析百级维度KPI,自动分析各种维度的权重占比,快速给出优化方向和影响性能瓶颈因素;
预警事件是否真实影响业务,清晰可见; 事件的时间点,易于查找。
告警聚合
大规模 IT 环境下,通常一个故障会触发大规模告警风暴。虽然能依赖业务关系或者时间段关系做一些简单的归并,但业务关系经常变动,很难手动维护;
定期对KPI和告警进行相关度计算和软聚类,生成行为拓扑关系,可以进行智能告警归并分析;
实时了解业务关系的变动;提高告警的有效性;从海量告警中快速定位主要告警。
运维助理
在排障过程中,往往需要调阅各种运维数据进行辅助分析; 而且大量事件属于重复性的;
智能问答机器人根据运维人员问题,提取其中的关键[问题语义],自动返回搜索结果和完成自动化运维操作;
通过智能问答机器人,运维人员无需关心具体搜索语句,由机器人自动搜索返回运维人员关注的信息,并通过联动自动化运维,提升故障治愈效率。
icon三大高新认证icon

icon四大国际认证icon

icon五项发明专利icon

icon服务客户icon

产品推荐 查看更多>>