立即咨询

电话咨询

微信咨询

立即试用
商务合作

袋鼠云X帆一尚行:直击大型车厂运维痛点 袋鼠云助力智能运维变革

2022-03-02

    一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。

    作为一家全球第七、中国超大的汽车产业集团,上汽深知,一个场景主导、软件定义、数据驱动、智慧出行的时代已经开启。

    2020年5月,上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,与袋鼠云就智能运维平台项目达成合作,成为上汽面对市场调整与产业变革,“新四化”创新转型中的重要一环,为后续的业务发展提供有力的IT支撑和保障。

   “问渠那得清如许,为有源头活水来”,作为智能运维的积极倡导者和探索者,袋鼠云数栈以云原生战略为基,稳步推进智能运维服务建设,为现代企业的数字化转型和发展注入源源而来的活水。

关于上汽&帆一尚行

    上海汽车集团股份有限公司作为国内规模领先的汽车上市公司,2020年,全年销售整车560万辆,连续15年销量保持国内第一。上汽集团努力把握产业发展趋势,加快创新转型,深入推进"电动化、智能网联化、共享化、国际化"的"新四化"战略,努力提升业绩的同时,深入部署推进创新链建设,在全球汽车产业价值链重构的过程中,全力抢占有利地位和制高点,加快推动业务转型升级,向成为具有全球竞争力和影响力的世界一流汽车企业的目标大步迈进。

   上海帆一尚行科技有限公司作为上汽全资投资的云计算中心,于 2015 年启动云平台建设,以期建成支持上汽集团新四化(电动化、网联化、智能化、共享化)战略转型、引领中国汽车行业创新的趋势科技基础平台,上汽集团总部、上汽乘用车、上汽大通、斑马汽车、环球车享等 40 多家汽车行业领头公司已深度使用和认可上汽云计算中心提供的各类云产品和服务。

“运维之痛”

    随着上汽集团信息化业务的发展,信息架构和应用系统的日渐庞大,底层基础设施涉及三个机房,上千台服务器,上百个应用系统,许多的数据问题不断涌现。例如:面对每天都在产生的海量运维及应用日志数据,现有的监控工具面临监控指标不足、监控数据分散、实时监控能力不足、无法实时智能预警等问题,业务稳定性无法得到有效保障;告警处理效率低下,现有的告警处理主要依靠运维人员的经验进行判断,很难精确定位故障发生点。

      如果拿一栋精美的别墅打比方,这座名为“上汽云”的别墅占地面积大,已经部署了近2500台服务器,别墅内的设施齐全,为上汽集团总部以及下属40余家单位提供各类云计算服务。但是随着这栋别墅越来越大,设施越来越多,涌进来的“租客”也就越多,面临的压力日渐增加。

“一旦发生重大事故,容易引发舆情风险”,成为悬挂在上汽运维系统头上的达摩克利斯之剑。

巨大的数据运维压力之下,如何建立规范有序、切实有效的运维机制,从而支撑业务的稳定运行与发展?

    帆一尚行找到了袋鼠云数栈。

    从“人肉运维”升级为“智能运维”

     AIOps是现代企业数字化转型的大势所趋,智能运维可以赋予企业们更强悍的大脑。

 “ 就像打怪升级一样,把AIOps一共分为5个等级,刚开始的上汽运维平台处在0.5的位置,袋鼠云数栈进行升级之后,达到了4的级别。”

    简单来说,数栈把上汽的智能运维平台进行了升级,使其具有数据统一存储、实时检索、查询和分析、监控告警、物化视图等能力。

01

数据采集及处理

    实时数据采集及对接,支持不同操作系统和不同类型的数据源采集,并支持多种解析方式将采集到的数据进行结构化处理,便于用户对日志进行统计、分析。

02

数据查询

    对日志内容进行查询分析,支持Lucene、SQL等语法来进行数据搜索,提供日志分布直方图、上下文查询、下载、列表字段设置等功能查看搜索结果。

03

数据可视化及警告

    提供支持SQL语法、拖拽方式的可视化仪表盘帮助数据根据用户需要进行更直观的展现。通过配置告警通知到相关人员进行及时的问题处理,提升运维效率。

04

物化视图

    通过物化视图对一些指标进行预先计算,使在查询或者仪表盘展示中减少此类计算带来的较多耗时,从而快速得到结果提升效率。

复杂异常检测如何快速落地

     人力运维专家在做问题分析的时候,评价其水平高低往往在于他是否能够综合评估各种数据,从中找出疑点,并根据经验证明疑点与问题之间的关系,简而言之,就是能否发现系统中存在的异常或者潜在隐患。

    而传统的运维自动化工具在这方面的能力较弱,很难解决相对复杂的问题。袋鼠云数栈打造的智能运维平台则能够解决传统运维中解决不了的这部分问题。

      通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常,实现通过异常检测的算法实践,验证了异常检测算法和场景的有效性。以算法学件化为指导理论,通过定制化开发,使算法模型无法形成可复制性,应用于其他KPI指标,整体提升算法模型的易用性和扩展性。

      并且,袋鼠云数栈为算法学件化单独开发定制化的算法应用模块——算法中心,可自己创建任务,支持将异常检测结果应用到告警、仪表盘或投递到指定目的源;支持对平台已接入的时序指标创建异常检测算法任务,并对已有的异常检测指标进行单指标或多指标的场景应用;方便异常检测算法模型应用于其他基于时间序列的KPI指标。

     如此,彻底摆脱根据人工经验定义异常阈值,实现使用机器学习算法实现无阈值KPI曲线异常识别,把需要逻辑推理的问题巧妙地转换为一个数学计算问题,大大简化了这个工作。

从场景出发,袋鼠云数栈的思考与对策

     复旦大学计算机科学技术学院教授王鹏说过:“智能运维在国内发展已经是如火如荼,但是在场景落地能力方面目前仍然十分欠缺。实际上,智能运维的落地,除了需要考虑算法的设计能力之外,还应该考虑对运维场景的理解能力。”

01

告警收敛智能运维场景

   “告警太慢被老板骂,告警太多被同事骂。”是上汽运维工作人员面临的一大问题,警报太多,收件人很容易麻木,但不再继续理会,关键的告警则常常被淹没。

上汽智能运维平台对zabbix相同事件名、相同主机名、相同业务名称、告警统一ID,等可以做为唯一标识的字段,做频次收敛,或告警合并,对zabbix proxy某些指标产生的无效告警进行监控和收敛,以此来降低告警信息的规模。帮助运维人员能够快速响应,实现从粗放运维到精细运维、从职能管理到流程管理的转变。

02

根因推导场景

    随着信息系统规模的不断扩大,各类系统及应用之间的关系也错综复杂,一旦某个节点发生故障就极易扩散形成多头告警,如何提供有效的工具解决这一痛点成为当务之急。

在根因分析场景中,上汽智能运维平台提供了多个算法相互结合验证的根因诊断系统,智能满足特定数据的验证。改良后的排序算法提高了命中率,二三类故障(非重大故障)的处置速度变快了。当故障发生时,根因分析结果可以帮助运维工程师快速确定故障的根因,并迅速对故障进行修复,降低损失。

     除此之外,上汽智能运维平台适合的场景还包括Ceph存储容量预测、流量预测等,袋鼠云数栈深知,算法只是手段,运维才是最终的目标。基于此,袋鼠云数栈竭力为上汽提供不同的运维场景算法开发,测试到底哪种算法用什么样的模式匹配到客户场景中最合适。

不仅好用而且易用

    界面看不懂,操作不明白。——这样的普遍性问题,在袋鼠云数栈设计的智能运维平台面前完全不存在。上汽智能运维平台具备良好的用户友好性,界面整洁明了,总体风格保持一致,操作简便,易于上手,用最少的步骤符合用户操作习惯。

平台支持50以上并发用户,支持同时在线用户数量可达500个以上,服务器CPU、内存资源利用率要求小于70%,针对250G数据量,数据分析响应时间不高于1秒。

     在如此高性能运作下,平台依然能保证7X24小时不间断运行,具备良好的并行处理机制,对存取冲突的竞争具有有效的仲裁和加锁机制,充分保证事务处理的完整性,并降低系统I/O开销,提高并发用户和存取的性能。

“平台直接落地之后,节约了大量需要手动操作的人工,还能够无障碍对接之前的软件,效果直接看得见,不用多说,大家就非常认可。”

袋鼠云助力智慧运维新模式

    上汽集团董事长陈虹说过:“在这样一个时刻发生变化、处处充满变数的世界中,如果我们因循守旧、循规蹈矩,拿着‘旧地图’就永远没法找到‘新大陆’。”

    2020年4月,Gartner撰文表示,从今天的5%起,到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。

   随着运维对智能化的要求越来越高成为必然,AIOps(智能运维)将成为运维技术发展的共识,现代企业数字化转型发展的首选。

    袋鼠云敏锐探到时代脉搏,积极深耕智能运维领域,深度服务企业的业务需求,帮助各大企业运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,预测业务变化趋势,最终全面提升企业的IT运维能力,降低经营成本和风险,创造更加优质的用户体验。

上汽集团及帆一尚行,携手袋鼠云,兼顾历史与未来需求,满足运行稳定与敏捷发展需要,不断强化自身能力,向智能运维一体化方向不断努力,又一次抢先踏入未来

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

华云天下云呼叫中心系统HCC华云天下云呼叫中心系统采用HCCASR/TTS集成,客户可自定义VIP客户转接流程。拥有预测式外呼和预览式外呼两种,提供单声道、双声道、主被叫分离等多种录音方式以及不安装任何插件的情况下, 坐席录音可在线收听和下载 支持MP3,WAV格式等,使企业实现人工智能快速规模化落地。
云客工作手机云客工作手机,针对销售全流程业务特性,打造以销售为本,透明化、数字化、一体化行业解决方案,为销售赋能、企业业绩转化提供新的生态体系。
内训宝企业在线培训系统内训宝企业在线培训系统拥有清晰、流畅、稳定的视频课程播放功能,视频/讲义-键切换的播放模式,满足不限终端、不限地点的学习需求,支持视频课程及PDF、PPT等文本课程学习,视频支持MPEG1、AVI、 FLV、 MPEG4、WMV、RM、QUICKTIME等主流视频格式。深入教育培训场景,体验全新学习形式。全面多终端智能学习及量身定制服务。
艺赛旗桌面行为分析CDA艺赛旗桌面行为分析CDA,通过可视化录屏、用户行为数据化和基于大数据的智能行为分析,真实全面的记录“人”的行为,帮助企业防范信息泄露,避免商业欺诈,提高客户服务质量和员工工作效率。便捷、灵活的风险监管策略配置,更准确的定位员工的桌面操作行为和风险行为。
橙色云CRDE智橙协同设计研发平台橙色云CRDE智橙协同设计研发平台是SaaS云原生平台,整合云CAD、项目管理、BOM管理等多功能,支持多终端、跨地域协同工作。它以云PLM与云CAD一体化为核心,提供一站式产品创新解决方案,推动企业数字化转型,实现高效、低成本研发设计。
为你推荐
直播间在线人数卡在500上不去?天志互联抽盒系统从互动率破局

抖音算法推流核心指标是互动率而非GMV。天志互联直播抽盒系统从订单秒级上屏、一键拆盒、氛围引爆三个维度拉高互动率,驱动算法推流的正循环。

2026-06-26
品牌联名越做越亏?天志互联用游戏化体验共创重新定义IP营销

从"换皮联名"到"游戏化体验共创"——拆解彩棠敦煌联名案例的壁画修复小游戏设计逻辑、奶茶品牌联名翻车教训和中小品牌三条低成本高ROI的IP联名路径。

2026-06-26
一个人也能搭游戏化运营体系?低代码时代品牌运营的乐高式搭建指南

低代码时代品牌游戏化运营体系的"乐高式"搭建指南——从选模板、搭积分闭环、数据迭代到多活动并行管理和团队交接的全流程实操方法。

2026-06-26
私域社群打开率跌破3%以后:一个快消品牌的游戏化自救实验

一个快消品牌用游戏化方法三个月救活240个死群的完整复盘——从签到排行榜、互动任务、习惯养成到赛季制防疲劳的六周运营节奏拆解。

2026-06-26
品牌私域裂变怎么设计才不被骂?游戏化社交裂变的三个底线原则

游戏化社交裂变的三个底线原则深度拆解——让转发不像广告、让奖品有炫耀价值、给用户不转发的自由,加3%超级用户识别策略和三个常见翻车点避坑指南。

2026-06-26
查看更多