一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。
作为一家全球第七、中国超大的汽车产业集团,上汽深知,一个场景主导、软件定义、数据驱动、智慧出行的时代已经开启。
2020年5月,上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,与袋鼠云就智能运维平台项目达成合作,成为上汽面对市场调整与产业变革,“新四化”创新转型中的重要一环,为后续的业务发展提供有力的IT支撑和保障。
“问渠那得清如许,为有源头活水来”,作为智能运维的积极倡导者和探索者,袋鼠云数栈以云原生战略为基,稳步推进智能运维服务建设,为现代企业的数字化转型和发展注入源源而来的活水。
关于上汽&帆一尚行
上海汽车集团股份有限公司作为国内规模领先的汽车上市公司,2020年,全年销售整车560万辆,连续15年销量保持国内第一。上汽集团努力把握产业发展趋势,加快创新转型,深入推进"电动化、智能网联化、共享化、国际化"的"新四化"战略,努力提升业绩的同时,深入部署推进创新链建设,在全球汽车产业价值链重构的过程中,全力抢占有利地位和制高点,加快推动业务转型升级,向成为具有全球竞争力和影响力的世界一流汽车企业的目标大步迈进。
上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,于 2015 年启动云平台建设,以期建成支持上汽集团新四化(电动化、网联化、智能化、共享化)战略转型、引领中国汽车行业创新的趋势科技基础平台,上汽集团总部、上汽乘用车、上汽大通、斑马汽车、环球车享等 40 多家汽车行业领头公司已深度使用和认可上汽云计算中心提供的各类云产品和服务。
“运维之痛”
随着上汽集团信息化业务的发展,信息架构和应用系统的日渐庞大,底层基础设施涉及三个机房,上千台服务器,上百个应用系统,许多的数据问题不断涌现。例如:面对每天都在产生的海量运维及应用日志数据,现有的监控工具面临监控指标不足、监控数据分散、实时监控能力不足、无法实时智能预警等问题,业务稳定性无法得到有效保障;告警处理效率低下,现有的告警处理主要依靠运维人员的经验进行判断,很难精确定位故障发生点。
如果拿一栋精美的别墅打比方,这座名为“上汽云”的别墅占地面积大,已经部署了近2500台服务器,别墅内的设施齐全,为上汽集团总部以及下属40余家单位提供各类云计算服务。但是随着这栋别墅越来越大,设施越来越多,涌进来的“租客”也就越多,面临的压力日渐增加。
“一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。
巨大的数据运维压力之下,如何建立规范有序、切实有效的运维机制,从而支撑业务的稳定运行与发展?
帆一尚行找到了袋鼠云数栈。
从“人肉运维”升级为“智能运维”
AIOps是现代企业数字化转型的大势所趋,智能运维可以赋予企业们更强悍的大脑。
“ 就像打怪升级一样,把AIOps一共分为5个等级,刚开始的上汽运维平台处在0.5的位置,袋鼠云数栈进行升级之后,达到了4的级别。”
简单来说,数栈把上汽的智能运维平台进行了升级,使其具有数据统一存储、实时检索、查询和分析、监控告警、物化视图等能力。
01
数据采集及处理
实时数据采集及对接,支持不同操作系统和不同类型的数据源采集,并支持多种解析方式将采集到的数据进行结构化处理,便于用户对日志进行统计、分析。
02
数据查询
对日志内容进行查询分析,支持Lucene、SQL等语法来进行数据搜索,提供日志分布直方图、上下文查询、下载、列表字段设置等功能查看搜索结果。
03
数据可视化及警告
提供支持SQL语法、拖拽方式的可视化仪表盘帮助数据根据用户需要进行更直观的展现。通过配置告警通知到相关人员进行及时的问题处理,提升运维效率。
04
物化视图
通过物化视图对一些指标进行预先计算,使在查询或者仪表盘展示中减少此类计算带来的较多耗时,从而快速得到结果提升效率。
复杂异常检测如何快速落地
人力运维专家在做问题分析的时候,评价其水平高低往往在于他是否能够综合评估各种数据,从中找出疑点,并根据经验证明疑点与问题之间的关系,简而言之,就是能否发现系统中存在的异常或者潜在隐患。
而传统的运维自动化工具在这方面的能力较弱,很难解决相对复杂的问题。袋鼠云数栈打造的智能运维平台则能够解决传统运维中解决不了的这部分问题。
通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常,实现通过异常检测的算法实践,验证了异常检测算法和场景的有效性。以算法学件化为指导理论,通过定制化开发,使算法模型无法形成可复制性,应用于其他KPI指标,整体提升算法模型的易用性和扩展性。
并且,袋鼠云数栈为算法学件化单独开发定制化的算法应用模块——算法中心,可自己创建任务,支持将异常检测结果应用到告警、仪表盘或投递到指定目的源;支持对平台已接入的时序指标创建异常检测算法任务,并对已有的异常检测指标进行单指标或多指标的场景应用;方便异常检测算法模型应用于其他基于时间序列的KPI指标。
如此,彻底摆脱根据人工经验定义异常阈值,实现使用机器学习算法实现无阈值KPI曲线异常识别,把需要逻辑推理的问题巧妙地转换为一个数学计算问题,大大简化了这个工作。
从场景出发,袋鼠云数栈的思考与对策
复旦大学计算机科学技术学院教授王鹏说过:“智能运维在国内发展已经是如火如荼,但是在场景落地能力方面目前仍然十分欠缺。实际上,智能运维的落地,除了需要考虑算法的设计能力之外,还应该考虑对运维场景的理解能力。”
01
告警收敛智能运维场景
“告警太慢被老板骂,告警太多被同事骂。”是上汽运维工作人员面临的一大问题,警报太多,收件人很容易麻木,但不再继续理会,关键的告警则常常被淹没。
上汽智能运维平台对zabbix相同事件名、相同主机名、相同业务名称、告警统一ID,等可以做为唯一标识的字段,做频次收敛,或告警合并,对zabbix proxy某些指标产生的无效告警进行监控和收敛,以此来降低告警信息的规模。帮助运维人员能够快速响应,实现从粗放运维到精细运维、从职能管理到流程管理的转变。
02
根因推导场景
随着信息系统规模的不断扩大,各类系统及应用之间的关系也错综复杂,一旦某个节点发生故障就极易扩散形成多头告警,如何提供有效的工具解决这一痛点成为当务之急。
在根因分析场景中,上汽智能运维平台提供了多个算法相互结合验证的根因诊断系统,智能满足特定数据的验证。改良后的排序算法提高了命中率,二三类故障(非重大故障)的处置速度变快了。当故障发生时,根因分析结果可以帮助运维工程师快速确定故障的根因,并迅速对故障进行修复,降低损失。
除此之外,上汽智能运维平台适合的场景还包括Ceph存储容量预测、流量预测等,袋鼠云数栈深知,算法只是手段,运维才是最终的目标。基于此,袋鼠云数栈竭力为上汽提供不同的运维场景算法开发,测试到底哪种算法用什么样的模式匹配到客户场景中最合适。
不仅好用而且易用
界面看不懂,操作不明白。——这样的普遍性问题,在袋鼠云数栈设计的智能运维平台面前完全不存在。上汽智能运维平台具备良好的用户友好性,界面整洁明了,总体风格保持一致,操作简便,易于上手,用最少的步骤符合用户操作习惯。
平台支持50以上并发用户,支持同时在线用户数量可达500个以上,服务器CPU、内存资源利用率要求小于70%,针对250G数据量,数据分析响应时间不高于1秒。
在如此高性能运作下,平台依然能保证7X24小时不间断运行,具备良好的并行处理机制,对存取冲突的竞争具有有效的仲裁和加锁机制,充分保证事务处理的完整性,并降低系统I/O开销,提高并发用户和存取的性能。
“平台直接落地之后,节约了大量需要手动操作的人工,还能够无障碍对接之前的软件,效果直接看得见,不用多说,大家就非常认可。”
袋鼠云助力智慧运维新模式
上汽集团董事长陈虹说过:“在这样一个时刻发生变化、处处充满变数的世界中,如果我们因循守旧、循规蹈矩,拿着‘旧地图’就永远没法找到‘新大陆’。”
2020年4月,Gartner撰文表示,从今天的5%起,到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。
随着运维对智能化的要求越来越高成为必然,AIOps(智能运维)将成为运维技术发展的共识,现代企业数字化转型发展的首选。
袋鼠云敏锐探到时代脉搏,积极深耕智能运维领域,深度服务企业的业务需求,帮助各大企业运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,预测业务变化趋势,最终全面提升企业的IT运维能力,降低经营成本和风险,创造更加优质的用户体验。
上汽集团及帆一尚行,携手袋鼠云,兼顾历史与未来需求,满足运行稳定与敏捷发展需要,不断强化自身能力,向智能运维一体化方向不断努力,又一次抢先踏入未来
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖
在数字化浪潮下,客户服务转型促使多账号 AI 客服系统应运而生。本文从需求明确、智能客服能力、多账号协同、数据安全、系统集成性及成本把控等关键维度,为企业精心挑选出契合自身的客服系统指明方向,助力企业畅享高效客服体验。
本文深度剖析句子互动 SCRM 系统,从强大功能到落地应用,全方位复盘用户真实体验,彰显其在私域运营中的关键作用,为企业的选型决策提供详实参考。
私域运营正当时,本文精心梳理 4 款热门企微私域运营软件,各展其能。句子互动以多账号聚合、自动化营销见长;尘锋 SCRM 社群运营与客户画像精细;六度人和(EC)拓展客户资源、赋能销售;快鲸智能对话分析精准营销。助力企业依需抉择,赋能私域增长
本文聚焦企微聚合聊天工具,以句子互动为典范,全方位对比同类产品。从功能、便捷性、数据安全、价格及服务等维度深度剖析,旨在助力企业于繁杂市场中甄别出最契合自身的私域运营利器。