袋鼠云X帆一尚行:直击大型车厂运维痛点 袋鼠云助力智能运维变革

来源: 云巴巴 2022-03-02 09:48:25

    一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。

    作为一家全球第七、中国超大的汽车产业集团,上汽深知,一个场景主导、软件定义、数据驱动、智慧出行的时代已经开启。

    2020年5月,上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,与袋鼠云就智能运维平台项目达成合作,成为上汽面对市场调整与产业变革,“新四化”创新转型中的重要一环,为后续的业务发展提供有力的IT支撑和保障。

   “问渠那得清如许,为有源头活水来”,作为智能运维的积极倡导者和探索者,袋鼠云数栈以云原生战略为基,稳步推进智能运维服务建设,为现代企业的数字化转型和发展注入源源而来的活水。

关于上汽&帆一尚行

    上海汽车集团股份有限公司作为国内规模领先的汽车上市公司,2020年,全年销售整车560万辆,连续15年销量保持国内第一。上汽集团努力把握产业发展趋势,加快创新转型,深入推进"电动化、智能网联化、共享化、国际化"的"新四化"战略,努力提升业绩的同时,深入部署推进创新链建设,在全球汽车产业价值链重构的过程中,全力抢占有利地位和制高点,加快推动业务转型升级,向成为具有全球竞争力和影响力的世界一流汽车企业的目标大步迈进。

   上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,于 2015 年启动云平台建设,以期建成支持上汽集团新四化(电动化、网联化、智能化、共享化)战略转型、引领中国汽车行业创新的趋势科技基础平台,上汽集团总部、上汽乘用车、上汽大通、斑马汽车、环球车享等 40 多家汽车行业领头公司已深度使用和认可上汽云计算中心提供的各类云产品和服务。

“运维之痛”

    随着上汽集团信息化业务的发展,信息架构和应用系统的日渐庞大,底层基础设施涉及三个机房,上千台服务器,上百个应用系统,许多的数据问题不断涌现。例如:面对每天都在产生的海量运维及应用日志数据,现有的监控工具面临监控指标不足、监控数据分散、实时监控能力不足、无法实时智能预警等问题,业务稳定性无法得到有效保障;告警处理效率低下,现有的告警处理主要依靠运维人员的经验进行判断,很难精确定位故障发生点。

      如果拿一栋精美的别墅打比方,这座名为“上汽云”的别墅占地面积大,已经部署了近2500台服务器,别墅内的设施齐全,为上汽集团总部以及下属40余家单位提供各类云计算服务。但是随着这栋别墅越来越大,设施越来越多,涌进来的“租客”也就越多,面临的压力日渐增加。

“一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。

巨大的数据运维压力之下,如何建立规范有序、切实有效的运维机制,从而支撑业务的稳定运行与发展?

    帆一尚行找到了袋鼠云数栈。

    从“人肉运维”升级为“智能运维”

     AIOps是现代企业数字化转型的大势所趋,智能运维可以赋予企业们更强悍的大脑。

 “ 就像打怪升级一样,把AIOps一共分为5个等级,刚开始的上汽运维平台处在0.5的位置,袋鼠云数栈进行升级之后,达到了4的级别。”

    简单来说,数栈把上汽的智能运维平台进行了升级,使其具有数据统一存储、实时检索、查询和分析、监控告警、物化视图等能力。

01

数据采集及处理

    实时数据采集及对接,支持不同操作系统和不同类型的数据源采集,并支持多种解析方式将采集到的数据进行结构化处理,便于用户对日志进行统计、分析。

02

数据查询

    对日志内容进行查询分析,支持Lucene、SQL等语法来进行数据搜索,提供日志分布直方图、上下文查询、下载、列表字段设置等功能查看搜索结果。

03

数据可视化及警告

    提供支持SQL语法、拖拽方式的可视化仪表盘帮助数据根据用户需要进行更直观的展现。通过配置告警通知到相关人员进行及时的问题处理,提升运维效率。

04

物化视图

    通过物化视图对一些指标进行预先计算,使在查询或者仪表盘展示中减少此类计算带来的较多耗时,从而快速得到结果提升效率。

复杂异常检测如何快速落地

     人力运维专家在做问题分析的时候,评价其水平高低往往在于他是否能够综合评估各种数据,从中找出疑点,并根据经验证明疑点与问题之间的关系,简而言之,就是能否发现系统中存在的异常或者潜在隐患。

    而传统的运维自动化工具在这方面的能力较弱,很难解决相对复杂的问题。袋鼠云数栈打造的智能运维平台则能够解决传统运维中解决不了的这部分问题。

      通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常,实现通过异常检测的算法实践,验证了异常检测算法和场景的有效性。以算法学件化为指导理论,通过定制化开发,使算法模型无法形成可复制性,应用于其他KPI指标,整体提升算法模型的易用性和扩展性。

      并且,袋鼠云数栈为算法学件化单独开发定制化的算法应用模块——算法中心,可自己创建任务,支持将异常检测结果应用到告警、仪表盘或投递到指定目的源;支持对平台已接入的时序指标创建异常检测算法任务,并对已有的异常检测指标进行单指标或多指标的场景应用;方便异常检测算法模型应用于其他基于时间序列的KPI指标。

     如此,彻底摆脱根据人工经验定义异常阈值,实现使用机器学习算法实现无阈值KPI曲线异常识别,把需要逻辑推理的问题巧妙地转换为一个数学计算问题,大大简化了这个工作。

从场景出发,袋鼠云数栈的思考与对策

     复旦大学计算机科学技术学院教授王鹏说过:“智能运维在国内发展已经是如火如荼,但是在场景落地能力方面目前仍然十分欠缺。实际上,智能运维的落地,除了需要考虑算法的设计能力之外,还应该考虑对运维场景的理解能力。”

01

告警收敛智能运维场景

   “告警太慢被老板骂,告警太多被同事骂。”是上汽运维工作人员面临的一大问题,警报太多,收件人很容易麻木,但不再继续理会,关键的告警则常常被淹没。

上汽智能运维平台对zabbix相同事件名、相同主机名、相同业务名称、告警统一ID,等可以做为唯一标识的字段,做频次收敛,或告警合并,对zabbix proxy某些指标产生的无效告警进行监控和收敛,以此来降低告警信息的规模。帮助运维人员能够快速响应,实现从粗放运维到精细运维、从职能管理到流程管理的转变。

02

根因推导场景

    随着信息系统规模的不断扩大,各类系统及应用之间的关系也错综复杂,一旦某个节点发生故障就极易扩散形成多头告警,如何提供有效的工具解决这一痛点成为当务之急。

在根因分析场景中,上汽智能运维平台提供了多个算法相互结合验证的根因诊断系统,智能满足特定数据的验证。改良后的排序算法提高了命中率,二三类故障(非重大故障)的处置速度变快了。当故障发生时,根因分析结果可以帮助运维工程师快速确定故障的根因,并迅速对故障进行修复,降低损失。

     除此之外,上汽智能运维平台适合的场景还包括Ceph存储容量预测、流量预测等,袋鼠云数栈深知,算法只是手段,运维才是最终的目标。基于此,袋鼠云数栈竭力为上汽提供不同的运维场景算法开发,测试到底哪种算法用什么样的模式匹配到客户场景中最合适。

不仅好用而且易用

    界面看不懂,操作不明白。——这样的普遍性问题,在袋鼠云数栈设计的智能运维平台面前完全不存在。上汽智能运维平台具备良好的用户友好性,界面整洁明了,总体风格保持一致,操作简便,易于上手,用最少的步骤符合用户操作习惯。

平台支持50以上并发用户,支持同时在线用户数量可达500个以上,服务器CPU、内存资源利用率要求小于70%,针对250G数据量,数据分析响应时间不高于1秒。

     在如此高性能运作下,平台依然能保证7X24小时不间断运行,具备良好的并行处理机制,对存取冲突的竞争具有有效的仲裁和加锁机制,充分保证事务处理的完整性,并降低系统I/O开销,提高并发用户和存取的性能。

“平台直接落地之后,节约了大量需要手动操作的人工,还能够无障碍对接之前的软件,效果直接看得见,不用多说,大家就非常认可。”

袋鼠云助力智慧运维新模式

    上汽集团董事长陈虹说过:“在这样一个时刻发生变化、处处充满变数的世界中,如果我们因循守旧、循规蹈矩,拿着‘旧地图’就永远没法找到‘新大陆’。”

    2020年4月,Gartner撰文表示,从今天的5%起,到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。

   随着运维对智能化的要求越来越高成为必然,AIOps(智能运维)将成为运维技术发展的共识,现代企业数字化转型发展的首选。

    袋鼠云敏锐探到时代脉搏,积极深耕智能运维领域,深度服务企业的业务需求,帮助各大企业运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,预测业务变化趋势,最终全面提升企业的IT运维能力,降低经营成本和风险,创造更加优质的用户体验。

上汽集团及帆一尚行,携手袋鼠云,兼顾历史与未来需求,满足运行稳定与敏捷发展需要,不断强化自身能力,向智能运维一体化方向不断努力,又一次抢先踏入未来

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

网站访问优化,那你要了解负载均衡技术

网站访问优化,那你要了解负载均衡技术

负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。 顾名思义,负载均衡是一种基于平衡后端每台服务器的网络信息流量负载的技术。

2020-04-23 17:44:47

产业焕新,云擎未来 | 云巴巴受邀参加京东云企业数智化创新发展活动

产业焕新,云擎未来 | 云巴巴受邀参加京东云企业数智化创新发展活动

9月6日下午,京东云在北京举办了一场以“产业焕新 云擎未来”为主题的企业数智化创新发展沙龙。云巴巴作为一家致力于企业数字化转型的服务平台,受邀参加了本次活动。

2024-03-27 14:58:02

“生物识别技术”与“密码”的“不解之缘”

“生物识别技术”与“密码”的“不解之缘”

关于“生物识别技术”在我们日常生活中的应用,大家几乎可以异口同声说出“人脸识别”、“指纹解锁”等。透过现象看本质,这些技术的背后无外乎俩字——“密码”。是的,“生物识别”≈“身体密码”的说法一点也不过分。

2020-05-06 16:59:16

你的网络信息安全,与你的生命安全同样重要

你的网络信息安全,与你的生命安全同样重要

现如今,已经是网络信息化时代,我们的日常生活办公已经离不开网络了,网络安全性,就成了首要前提,网络安全管理平台的出现,是我们的工作生活更多了一层保障。 还记得20年前吗,电脑病毒主要通过软盘传播。现如今随着电脑的广泛应用,和网络的不断普及,来自网络内部和

2020-05-14 17:35:34

针对直播行业中的痛点腾讯云直播如何解决

针对直播行业中的痛点腾讯云直播如何解决

直播行业在不断发展的同时虽然给我们带来了很多便利,但是想流畅度以及画质是否清晰流畅依然是直播行业中的痛点。而只有不断完善直播中的功能,这些痛点才能够得到很好的解决,让直播更好的为我们服务。

2022-11-24 11:22:22

又上榜了!LeapAI入选人工智能平台龙头榜单

又上榜了!LeapAI入选人工智能平台龙头榜单

4月7日,中国科学院《互联网周刊》联合eNet研究院权威发布2020新基建分类排行榜,分别收录了人工智能、5G基站建设、工业互联网等7大领域的龙头企业。

2020-04-24 10:53:07

严选云产品

六方云 日志审计分析系统 六方云日志审计分析系统是一种具备对整个信息系统中的各类日志进行集中采集、集中管理、集中审计的能力的产品。 日志审计能够实时采集企业和组织中各种不同厂商的安全设备、网络设备、 主机、操作系统、以及各种应用系统产生的日志、事件、报警等信息,并将数据 信息汇集到展示平台,进行集中存储、展现、查询和审计。它适用于对日志管理 要求较高的政府机关、运营商、金融机构及一些大中型企业。
腾讯灯塔数据洞察DataTalk增强型自助BI工具 腾讯灯塔智能数据洞察DataTalk增强型自助BI工具,助力企业私域业务增长,加速数字化转型。通过提供强⼤且低⻔槛的数据可视化分析能⼒,帮助企业灵活搭建PC报告、移动报告或数据⼤屏;通过AI增强数 据分析实现⾃然语⾔数据问答,帮助客户提升数据洞察效率,并最终实现⽤户增⻓。
喔趣科技 智能排班系统 精确预测业务量,准确率达95%以上, 实现用工需求与经营节奏全拟合, 提升企业全员劳动效率。
Focussend营销自动化平台 Focussend营销自动化平台,私域“引流-获客-培育-转化”营销一体化方案,存量用户挖掘增量客户,低频场景变高频场景,全程大数据监控追踪获客效果。从引导关注公众号—到留资,社群,个人企微等路径—到裂变效应。
数商云瓴犀B2B电子商务系统 数商云瓴犀B2B电子商务系统,打通上下流全链路为企业实现高效的信息平台,平台汇集产业链上下游订单,平台方可依据订单情况做合理分配,对订单做分类管理,保碍订单服务质量,实现价值最大化运作。为产业链提供全方面的服务,实现传统企业向产业互联服务商转变。
金财互联金财智票销项管理平台 金财互联金财智票销项管理平台一站式发票服务平台,解决所有发票难题。系统自动从税盘中同步历史发票数据,系统自动从历史发票数据中同步开票企业信息,系统自动从历史发票中同步客户抬头信息,系统自动从历史发票中同步商品信息包括税收分类编码等。

甄选10000+数字化产品 为您免费使用

申请试用