一篇关于“AIOps”蓝鲸智能运维的思考文章

来源: 云巴巴 2020-03-06 17:28:35

    矛盾是事物发展的源泉和动力。只有不断的解决问题才能够不断地自我提升,运维中的矛盾,既有来自业务和技术上的,也有来自开发和运营的,而想要解决这些问题只能不断的向前发展。
    一、安全生产
    数据中心的主要职责是安全生产,围绕着安全生产有三个目标:
    1高可用架构:高可用的IT基础设施可以确保应用系统的可用性与连续性,包括:应用集群、系统热迁、数据库集群、存储复制、物理备份等。
    2高效运维:围绕着高可用架构,进行一些列高效运维工作,包括:资源供给、应用部署、日常变更、故障处理、数据治理等。
    3 节约成本:在满足高可用和高效的前提下,尽量节约成本,包括资源优化、性能优化、以及减少成本不敏感的资源浪费。

    二、高效运维
    主要涉及如下四个方面工作:
    1资源供给:之前的这些工作需要多人协同,效率无法保证。现在通过云计算,可以提前准备一批资源,然后通过自动化的流程去衔接,避免沟通成本和低效的手工操作,提高了效率和人员安全。
    2应用部署:之前是开发——测试——组织投产——开展运维,应用发布部署效率低。现在通过DevOps提高效率,DevOps强调持续CI/CD,通过CI实现开发到测试的持续集成测试,通过CD实现开发到运维的持续系统部署,通过CD实现技术到业务的持续价值交付。
    3变更管理:之前是人工配合一些工具脚本,无系统化思维能力,往往只见树木不见森林。现在是通过云提升系统外变更效率,通过自动化工具(例如Puppet和Ansible)提高系统内变更效率。
    4故障处理:之前是接到监控告警,各专业分析根源,执行应急预案,但是存在很多问题。现在是通过AIOps解决,实现故障预测、故障检测、根因分析、故障自愈,尽量减少人工参与。
    三、智能运维(AIOps)
    IT运维经历了三个阶段,即人工运维、自动化运维、智能运维(AIOps)。人工运维是指人工配合脚本。自动化运维是指系统工具的自动化,决策在人,执行在机器。智能化运维是指决策的自动化,决策在机器,执行也在机器。
    1 AIOps定义:AIOps是指基于已有的运维数据(访问关系、监控告警、日志),采用数据分析和机器学习方法,提高运维决策能力,解决自动化运维无法解决的问题,进一步提高运维效率,AIOps的价值不仅在于提供智能运维决策,也在于实施过程中,对已有的基础架构、应用关系、监控告警、日志数据等进行梳理。实现真正的精细化运维,当然,AI算法的局限性、场景的多样性、数据的复杂性,决定了AIOps是人力密集性、过程的曲折性。也决定了AIOps不能解决全部问题,需要人机协同和知识图谱,才能发挥AIOps最大价值。
    3.2 数字化运维:信息化是把手工流程变成线上流程,数字化是把物理对象抽象为数字对象,通过大数据分析和机器学习算法挖掘数据的价值,大数据主要通过大量多样数据的分析,挖掘数据的价值,会使用到一些机器学习算法。机器学习主要强调决策的自动化,依赖的基础也是数据,可以说,大数据分析基础,AI是目标态,AIOps是运维数字化的直接体现。
    3.3 AIOps场景:一是质量方向,主要是异常处理,包括异常预测、异常检测、根因分析、故障自愈等;二是效率方向:主要是预测,包括批量预测、容量预测、交易量预测等;三是成本方向,包括资源优化、性能优化等。
    3.4算法为尊:
    现阶段的AI得以发展,得益于算力、算法、数据的共同改良,算力是通用的,场景决定数据,数据决定算法。往往不同的场景有不同的数据,即使同一个场景的不同环境也有不同数据,这就决定了数据的适配性、算法的多样性。
    AI算法:机器学习算法,按标注可以分为监督、非监督、半监督、强化。按用途可分为分类、聚类、回归、降维。按照方法可分为统计学、传统机器学习、深度学习等。其中,统计学(例如:正太分布、均衡分布)要求数据必须满足某种分布,在异常检测领域用的多,包括运维领域的故障处理、金融领域的反欺诈、工业领域的残次品检测,传统机器学习(例如:kmeans、随机森林、支持向向量机、贝叶斯、决策树、马尔可夫等),虽然对数据要求弱一些,但对场景依赖强,即使是同一个场景的不同环境,也需要不同模型,在数据分析领域用的比较多,深度学习(深层神经网络,例如:CNN、RNN)对数据要求高,因为更多的数据才能训练出更深的神经网络,更深的神经网络抽象表达能力更好,也就决定了场景适应能力越强,主要是用在图像技术、语音技术、自然语言处理三个通用技术领域。
    AIOps算法:做异常处理时,主要是概率分布和聚类,分类比较少,因为GT少。做预测时,可以是多维的线性回归模型,线性回归简单,但鲁棒性差。也可以是基于深度学习的非线性模型,一则对数据要求高,二则需要监督学习。还可以是传统的贝叶斯模型,但预测效果一般。
    3.5方案为王:学术界研究通用问题,寻找更优的算法。工业界除了需要解决通用问题,还需要解决更多的个性化问题,甲方和乙方经常不在一个频道上,乙方主打算法和产品,甲方确需要解决方案,解决应用场景中的痛点。这中间需要乙方设立解决方案部门,熟悉甲方各种套路,算法的价值在于解决问题,在算法、产品、解决方案、应用场景、产生价值整个周期中,算法仅仅是个开始。研究新算法,解决通用问题,固然很重要,利用已有算法,解决个性化问题,给出完整解决方案,才是关键。
    3.6非零基构建:AIOps是在现有基础架构之上构建的智慧大脑,依赖于现有的眼(应用访问关系、监控告警、日志)和手(云和自动化工具),眼数据主要有:应用访问关系,基础架构成熟的企业,积累了应用访问关系,不成熟的企业,需要借助AIOps进行梳理。监控数据,包括设备监控数据、网络监控数据、系统监控数据、平台监控数据、应用监控数据、业务指标监控数据,这些都是结构化的时序数据。日志数据,非结构化的数据,每个系统都有自己的日志数据,不便于统一分析。手主要分为外手和内手,外手主要是在系统在外侧操作,可以通过云平台(IAAS和PAAS)实现。内手主要通过自动化工具实现,例如无代理的Ansible和有代理的Puppet。AIOps就是基于现有的眼数据,进行分析、推理、决策,然后使用现有的手进行运维。
    四、监管之剑
    监管要求的安稳态是把双刃剑,一方面确保了业务的安全稳定运行,另一方面却阻碍了技术创新,然而,技术创新,无论是云计算、还是DevOps、还是AIOps,都在追求敏捷态,这往往挑战了监管要求。在监管面前,一切违反监管要求的做法都是一票否决,我们可以在现有的监管框架内寻求折中,例如,在严格遵守ITIL的严管控流程的同时,把人工流程全部优化为自动化流程,但这会偏离技术创新的原有初衷。解铃还须系铃人,监管需要为技术创新改变。
    五、结束语
    真理往往都是最简单的,但是,寻找真理的过程确是复杂且艰难的,这也恰恰是魅力所在。我们坚信,在大家的共同努力下,AIOps终将会让所有人看到它的魅力。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

蓝鲸标准运维中“轻应用”的这些功能你都知道吗?

蓝鲸标准运维中“轻应用”的这些功能你都知道吗?

标准运维通过与蓝鲸集成平台深度结合,业务运维人员将日常工作标准化后,以标准运维中一个模板的形式提供给业务非技术人员使用,为了降低使用者的操作风险和使用成本,将该模板以独立 SaaS 应用的方式指定给授权者使用。

2020-03-05 16:47:59

RPA机器人如何成为企业的数字生产力?

RPA机器人如何成为企业的数字生产力?

随着RPA机器人进行不断地发展成长与进化,RPA可以被赋能,并转化为企业真正的数字生产力。它与AI的关系将更加密切,把RPA和AI结合起来,会让RPA机器人变得更强。 RPA技术可以和各种AI的技术在相互结合

2020-03-19 16:29:40

AI“窥”豹,看得见的“敏捷猎手”

AI“窥”豹,看得见的“敏捷猎手”

华为云联合山西沃成生态环境研究所,共同研发完成了基于AI技术的以华北豹为重点的野生动物自动识别系统(金钱豹AI识别方案)。该系统的使用将大幅提升沃成生态的数据处理与分析效率,为濒危旗舰种华北豹以及其他野生动物的的研究监测提供跨界、跨代的技术助力。

2020-04-01 11:20:37

人工智能技术,人类强化自身的途径

人工智能技术,人类强化自身的途径

音乐有强大的魔力,例如,没有配乐的电影不会激发同样的情感反应,那么,有没有办法量化这些这些回应呢?如果可以,能不能对其进行逆向操作呢?在最近的新论文中,研究人员在美国南加州大学,绘图元素音高,节奏并观察他们如何产生不同类型的脑活动,生理反应和情绪的变化,

2020-03-17 16:45:44

眼神科技全资子公司入选国家工信部专精特“小巨人”企业名单

眼神科技全资子公司入选国家工信部专精特“小巨人”企业名单

2020年11月13日,工信部发布了入选第二批专精特新“小巨人”的企业名单,19年第一批的企业名单只有248家,而今年增加到了1744家,涵盖了设备、原材料、计算机通信、医药行业、其他电子设备制造业以及软件与服务业等。

2022-11-23 16:40:04

在腾讯云人脸核身技术中从多个模块感受其安全性(一)

在腾讯云人脸核身技术中从多个模块感受其安全性(一)

随着实名认证的不断普及,人脸核身技术针对各个行业中难以确认用户身份信息提供了一套完善的解决方案。在一些需要大量进行用户身份认证的场景下通过人脸核身技术能够迅速并且高效的实现对用户的身份认证,而人脸核身技术中的四大模块也让用户在使用人脸核身技术时能够感受到更

2022-11-24 11:24:06

严选云产品

i6000智能磁带库 Scalar i6000的数据存储容量最高可扩展至 360PB*,足以支持大型企业存储环境。按需扩容功能可支持快捷、灵活且无中断的容量扩展,有效降低了管理动态存储要求的难度,适用于企业归档、容灾和长期数据保护的智能磁带库。
声网Agora一对一在线教学解决方案 声网Agora一对一在线教学解决方案,可以提供卓越的教学互动体验,全平台与海量终端支持。保证系统满足在线教学的高可用要求,确保教学效果与质量。针对课外辅导、语培、音乐、美术等场景,提供不同的场景化技术方案,不断提升教学的场景化体验。
腾讯天幕T-Sec网络入侵防护系统 腾讯天幕T-Sec网络入侵防护系统,通过旁路方式,提供双向流量逐包检测和IP封禁能力,解决数据中心的协同防御和安全治理问题。提供阻断API,方便其他安全检测类产品调用。 提供全网流量实时监控功能,能够应用到等保合规、协同防御和日常安全运营等场景。
喔趣科技智能考勤管理系统 喔趣科技智能考勤管理系统,保障打卡稳定性,规则配置灵活性,计算准确性。结合业务场景设计的高并发处理方案,保障高峰期打卡的稳定性。规则组的多样性满足多种业务场景,对应多维度考勤结果的计算和查询。
腾讯云 京腾云仓解决方案 京腾云仓京腾云仓解决方案是腾讯智慧零售和京东物流联手打造的一站式私域营销&物流履约SaaS解决方案,旨在以腾讯智慧零售的电商私域场、以京东云仓的商品和物流生态场,为用户拓展私域生态新生意、新增长。
苏宁科技数据采集分析平台 苏宁数据采集分析平台,为线上、线下、实时、离线、多种异构数据源接入大数据仓库提供了一套完整解决方案,支持全终端的数据采集,覆盖APP、小程序、Web、H5、OTT;结合标准化流量模型,建立用户行为分析体系;搭建一站式平台配置管理能力;具有高可靠性与高可扩展性。

甄选10000+数字化产品 为您免费使用

申请试用