云掣ACOS统一运维监控平台_让可观测运维更简单_大数据运维托管服务-云巴巴 -云巴巴

云掣ACOS统一运维监控平台

云掣YUNCHE，袋鼠云旗下企业云服务品牌，以ACOS统一运维监控平台为核心，结合全栈运维专家服务，包括大数据运维托管服务,数据库运维托管服务,应用系统运维托管服务，致力于可观测运维领域，为企业建立可视化的全业务运维管理体系，将IT质量管理与业务质量管理融合。

立即咨询

企业新发展带来的挑战 icon

人才储备
线上业务相关人才

大数据相关人才

数据安全
符合监管政策

商业机密

可观测能力
以业务发展为导向，衡量信息系统，保障用户体验，为数字化业务赋能，解决未知问题

云掣服务的优势

专家团队全栈覆盖
专业团队：成长于原生数据平台产品团队，更专业。10+阿里云MVP专家；全域覆盖：覆盖多个大数据领域的全栈技术服务能力。

运维平台高效支撑
ACOS：轻松建立起业务和基础平台的可观测性能力；EasyManager：开源大数据计算集群的自动化部署、监控和运维工具；运维数字化大屏：直观展示运维数字化信息，指导运维工作开展。

解决方案丰富多样
运维可视化解决方案

DevOps解决方案

基于EasyMR的大数据运维解决方案

云上Oracle RAC解决方案

企业服务专业及时
覆盖能力：累计服务1000+客户，覆盖30+行业；服务能力：年处理事件量26000+，托管数据平台节点量15000+，平均响应时间<10分钟。

传统监控与可观测性的关系 icon

监控（Monitoring）：是以系统可用性为中心，收集、分析和使用明确的信息来观察一段时间内的运行进度，并且进行相应的决策管理的过程。可观测性（Observability）：基于白盒化的思路，通过分析系统生成的数据，构建完整的观测模型，理解推演出系统内部的状态。

统一运维可观测套件ACOS--问题与方向 icon

存在的问题

系统架构复杂：云原生、容器、微服务、大数据集群，应用架构多样，调用关系复杂。监控工具分散：多个监控工具，无法全景展示，数据割裂，无法实现数据共享、统一应用，缺乏业务视角。依赖经验：监控只能反馈问题，故障诊断太依赖专家经验。

需要

统一监控分析能力：覆盖基础设施到用户体验的日志、指标、链路数据，可集成外部监控，统一存储和分析。可观测：丰富的链路展现形式，清晰的故障链路传递图，业务影响面分析与问题根源分析。快速发现、快速定位，不仅定位问题原因，甚至发现隐患。智能运维能力：引入AI辅助决策，结合数据、算法和专家经验。

统一运维可观测套件ACOS--功能大图 icon

统一日志

ACOS统一运维监控平台，让可观测运维更简单 icon

全景监控

全域数据采集和集成

一个监控平台

智能异常发现、预警

适用于运维、开发、运营人员

资源管理与容量分析

资源管理与拓扑设计

基于组织-业务系统―模块实现资源管理，形成资源关系图谱。

繁忙与闲置资源发现

基于水位监控对资源容量和使用效率进行分析，发现繁忙与闲置资源。

业务系统资源优化

基于容量优化建议优化网络层、应用层、数据层资源配置，节约成本支出，保障系统稳定。

运维驾驶舱

12块运维大屏

从宏观到微观，从全局到局部，建设面向老板、运维经理、运维工程师等不同角色、不同粒度监控决策大屏。

专业运维经验总结

从业务–应用–网络-基础设施实现全方位、全层级的决策支持。

基础设施监控

硬件监控物理服务器安全设备存储设备

网络设备监控交换机路由器其他

主机监控操作系统进程

云平台监控公有云私有云混合云

容器监控 Kubernetes Docker

数据库监控关系型数据库非关系型数据库

中间件监控 Web中间件消息中间件其他中间件

业务监控

强大数据采集解析能力

轻量级Agent，支持多种数据源，简单易用的日志切割和灵活的采集配置，同一日志来源支持应用多批次解析。

灵活的可视化报表

简单易用的可视化大盘配置，丰富的可视化图表，支持组织业务架构管理业务大盘。

简单及时的故障告警

支持钉钉、企业微信、电话、短信、邮件、webhook等多种通知渠道，支持基于SQL的告警配置。

关联应用监控的根因定位

支持关联应用监控调用链排查故障。

应用监控

应用性能黄金指标&JVM监控&主机监控

SQL调用分析&NOSQL调用分析

异常分析&错误分析

调用链查询&代码级下钻

智能报告

选择或自定义巡检目标

设定巡检时间

自动产生和发送巡检报告

智能巡检时自动化巡检，通过自定义选择平台系统分析后的指标（或直接采用平台已有的巡检模板)。设定系统自动巡检时间，平台自动完成巡检工作，将报告发送给相关人员。

安全生产可观测解决方案 icon

专业的运维托管服务--助力企业快速获取专业的运维能力 icon

运维服务整体流程

服务接入期

目标：服务顺利接入启动
服务启动会议

成立专业服务团队

明确客户对接人员

对齐服务目标和范围

服务内容、标准、流程介绍及培训

建立日常沟通机制渠道

资源信息搜集整理

必要账号授权

服务建立期

目标：服务体系正式建立
监控接入，建立可观测模型

全面体检，摸排系统环境运行情况

针对体检结果，进行整体一次性优化

运维安全隐患排查加固

建立服务报告制度

环境部署*

数据迁移*

服务保障期

目标：业务连续性保障
7*24小时监控处理

定期巡检

日常技术咨询

组件性能优化

数据备份维护

定期安全检查

安全漏洞修复

故障应急处理与复盘

服务提升期*

目标：降本增效，服务升级
成本分析和优化

资源使用分析和优化

系统架构调整和优化

系统性能优化

高可用、灾备演练

新技术引进和探索

运维服务标准承诺

如遇到重大事件需现场处理，袋鼠云可快速到达现场进行技术支持。

5*8日常运维服务

平均响应时间10分钟以内

限时4小时内提供解决方案或者解决

保证全年95%以上的服务响应率

7*24紧急运维服务

平均响应时间15分钟以内

限时4小时内提供解决方案或者解决

保证全年95%以上的服务响应率

解决方案

案例一：某市健康码全链路监控 icon

背景：XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》，明确XX全面复工复产时间点和任务安排，XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性，支撑XX人民有序复工复产。痛点：ISV厂商众多，缺乏全局视角，快速定界厂商问题。业务链路复杂，出现故障后定位问题困难，缺乏全链路可观测视角。故障频发，被动响应，缺乏体系化故障梳理。时间紧、客户”因为看见，所以相信”，同时需求变动频繁。

案例二：某券商大数据平台升级扩容 icon

需求痛点

由于初期采用开源Apache Hadoop框架建设分布式计算平台已运行2年之久，集群性能每况愈下。需要基于Cloudera的Hadoop发行版CDH(Cloudera’sDistribution Including Apache Hadoop)构建新平台，迁移核心业务，逐步替代老旧Apache Hadoop。

建设内容

架构设计-根据可用的基础计算资源，规划CDH集群规模和数据节点容量，新集群组件组合部署方案。平台建设-盘点生产环境各组件，根据业务需求完成新平台建设细节规划。安全访问控制-实现Ranger与CDH各组件集成，做到HDFS、HBase、Kafka、PrestoSQL的数据安全访问。系统调优-中文乱码、数组越界、查询报错、通信超时、字段转换失败、任务卡顿、元数据异常、参数解析异常。数据迁移-完成精确到Hive表、字段的PB级全量数据迁移校验。

案例三：某电商迁云

需求痛点

电商行业，主营线上购物业务。业务数据量18T，每月增量1T+，大促高峰期业务时长出现白屏卡顿，希望数据库上云，大促业务流畅，支持百万级QPS。数据库节点异常不能影响业务，需要异地灾备，优化数据架构适应应用百万级QPS。

建设内容

MHA ProxySQL+Keepalived+Mysql建设两地三中心云上架构。业务架构优化：数据库实施分库分表，实现一库一表，降低大促单库压力。

项目成果

迁云：上云前后业务不中断，上云过程安全平滑。运维托管：根据云掣10年阿里秒杀架构经验优化客户业务逻辑架构和数据库物理架构，实现亿级秒杀高并发架构，同时性能提升35%，资源成本节省10%。

公司资质和荣誉

客户数字化转型的选择 icon

产品推荐

有道智云AI开放平台

有道智云AI开放平台专注提供稳定、安全、高效的AI服务。网易有道旗下一个为开发者、企业和政府机构等提供自然语言翻译、文字识别OCR等服务以及行业解决方案的云服务平台。致力于提供安全，可靠和高效的云服务。

免费试用

查看详情

天空卫士云安全服务平台

天空卫士云安全服务平台是一种基于云的数据安全解决方案，企业和组织可以灵活选择搭配各种数据安全服务，对其数据和应用进行保护，以满足以下业务需求在统一的视图中实时监控企业数据资产分布及潜在风险，企业数据安全状况一目了然；集成数据管理能力，保证企业 IT 系统上云以后，仍然能满足合规要求；提供包括敏感内容识别、数据分类分级等安全选项，保护云端数据安全；监控云端数据，并预判潜在威胁，提前加以防范。

免费试用

查看详情