icon与传统监控的区别icon
icon传统监控工具到可观测平台转型及挑战icon

系统架构复杂、监控数据分散、排障难度高、传统的监控工具已经无法解决客户问题

系统架构复杂
涉及软件产品种类多
云上业务应用架构多样,调用关系复杂
监控数据分散
多个监控工具,无法全景展示
各自监控,数据分散,无法实现数据共享、统一应用
排障难度高
监控分散、信息不透明、沟通成本高
监控维度单一,缺少业务维度指标
icon安全生产可观测解决方案icon
icon可观测能力建设实践icon
环境调研
资源环境
系统架构
业务逻辑
可观测 平台建设
架构设计
资源评估
平台部署
产品培训
可观测模型
关键指标
日志关联
业务链路
可观测 方案实施
数据接入
告警策略
可视化仪表盘
应急预案
日常运维保障
定时巡检
变更管理
性能优化
备份恢复
故障处理/复盘
7*24 响应
快速恢复
报告复盘
icon可观测产品-功能概览icon
icon可观测产品-端到端全链路监控icon
端到端的全链路监控
支持web网站前端API请求与后端
应用调用链进行关联查询
数据库&NoSQL调用分析
支持关系型数据和非关系数据库
调用分析,捕获慢查询
无损统计
Agent端预聚合,应用性能统计
指标更准确
探针低侵入、高稳定性
探针整体性能消耗<5%
异常&错误分析
支持异常和错误分析
调用链关联日志
调用链支持一键关联查询应用日志
icon可观测产品-业务监控icon
强大数据采集解析能力
轻量级Agent,支持多种数据源,简单易用的日志切割和灵活的采集配置,同一日志来源支持应用多批次解析。
灵活的可视化报表
简单易用的可视化大盘配置,丰富的可视化图表,支持组织业务架构管理业务大盘。
简单及时的故障告警
支持钉钉、企业微信、电话、短信、邮件、webhook等多种通知渠道。
关联应用监控的根因定位
icon可观测产品-应用性能监控icon
 
应用性能黄金指标&JVM监控&主机监控
SQL调用分析&NOSQL调用分析
异常分析&错误分析
调用链查询&代码级下钻
icon可观测产品-资源监控icon
icon可观测产品-统一日志icon
icon可观测产品-资源管理 & 容量分析icon
资源管理与拓扑设计
基于组织–业务系统–模块实现资源管理,形成资源关系图谱
繁忙与闲置资源发现
基于水位监控对资源容量和使用效率进行分析,发现繁忙与闲置资源
业务系统资源优化
基于容量优化建议优化网络层、应用层、数据层资源配置,节约成本支出,保障系统稳定
icon可观测产品-运维驾驶舱icon
12 块运维大屏 专业运维经验总结
从宏观到微观,从全局到局部,建设面向老板、运维经理、运维工程师等不同角色、不同粒度监控决策大屏。从业务-应用-网络-基础设施实现全方位、全层级的决策支持。
icon可观测产品(高阶功能)-前端监控icon

基于真实用户访问数据,面向不同终端的提供前端用户体验监控的能力

接入简单
无需埋点,支持多种接入方式灵活接入
端到端分析
支持与应用监控的调用链进行关联,实现端到端的性能分析
多维分析
支持页面、接口、浏览器、操作系统、设备、运营商、网络、地区等多个维度对网页性能进行分析
icon可观测产品(高阶功能)-全息监控icon

全息监控可通过对应用进行业务及架构打标,实现服务业务应用架构可视化,展示业务系统间调用关系、各个业务间请求量、调用次数、各业务提供的接口数量,结合以上信息可核算各业务服务价值,分析业务中台业务效能;兼具架构感知能力;作为业务中台能力中心的总控入口,可查看业务中心详情,包括监控告警、能力描述、出参、入参等信息。同时可作为服务能力管控入口,实现监、管、控一体。

icon可观测产品(高阶功能)-全息多维视角icon
运维人员视图
可以看到应用之间调用关系,应用之间请求的qps和调用次数,同时具备架构感知能力,提供一份业务划分前的应用关系图,提供运维人员使用。
领导视图
通过对应用进行业务打标(业务分组、架构分层、业务拓扑分组)。展示架构分层及业务调用关系,同时附加接口数量、调用次数;同时可以查看应用详细监控信息。查看并推动微服务治理持续落地及完善。
业务视图
展示具体某一块业务的拓扑图
提供具体某一领域业务人员使用
icon可观测产品(高阶功能)-全息根因定位icon

根因链路:可以查看问题发生时间及趋势图,查看问题根因链路,找到具体发生问题的接口信息。根因分析详情:可以下钻到具体方法栈,找到具体发生问题的代码行。

icon可观测运维托管服务icon
大数据运维托管服务
监控告警服务
定时巡检服务
集群规划建设服务
性能优化服务
数据安全保障服务
故障处理服务
开发支持服务
数据库运维托管服务
监控告警服务
定时巡检服务
高可用架构服务
性能优化服务
数据安全保障服务
故障处理服务
应用系统运维托管服务
监控告警服务
定时巡检服务
网络技术服务
性能优化服务
系统安全保障服务
故障处理服务
icon案例一:XXX某政务系统icon

背景:XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》,明确XX全面复工复产时间点和任务安排,XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性,支撑XX人民有序复工复产。痛点:ISV厂商众多,缺乏全局视角,快速定界厂商问题。业务链路复杂,出现故障后定位问题困难,缺乏全链路可观测视角。故障频发,被动响应,缺乏体系化故障梳理。时间紧、客户”因为看见,所以相信”,同时需求变动频繁。

icon案例二:某电力产业公司icon
背景

为更好的实现数字化转型战略,集团选用阿里专有云技术构建 IaaS+PaaS 基础平台,平台上线后很好的支撑了各业务系统运行。随着业务系统的不断丰富,原有各系统运维监控工具分散及功能不足的问题凸显,需要统一的全栈可观测平台来实现对基础资源、云平台、应用性能等进行全面监控,保障各系统业务连续性。

痛点

原有监控系统分散,基础资源监控、网络设备监控、日志集群独立存在,数据割裂、运维效率不足。原有监控系统无法兼容云平台各PaaS功能监控,导致故障响应缓慢。应用性能监控能力缺失,系统故障后,无法快速定位根因,故障恢复时间长,导致不必要的损失。运维可视化能力不足。

解法

部署 ACOS 一体化全栈可观测平台,并通过可观测实施服务,协助企业完成监控模型建设及数据接入。全域数据接入,基础资源、云平台、应用性能、业务监控全面接入,实现系统运行可观测;端到端全链路监控能力,链路调用拓扑,根因定位分析,实现故障快速恢复;运维可视化,指标数据、业务数据自定义可视化仪表盘,帮助不同角色成员实时感知运行情况;自动化巡检,通过平台运维数据分析能力,实现自动化巡检功能,并自定义输出报告,提高运维工作效率。

icon案例三:中国邮政icon

中国邮政借力 ACOS 在双11期间实现监控运维升级,运维问题得到分钟级定位。

背景
基于中国邮政信息技术局制定了“三新三化一目标”信息化建设方针,启动了“新一代寄递业务信息平台”建设。通过借力阿里云在IaaS, PaaS层的产品,邮政的新一代寄递业务信息平台在上线后获得巨大成功,业务峰值提前3年出现,并平稳过度。
挑战
中国邮政的寄递业务平台初始上线时,由于涉及上千分布式节点的监控运维,实时监控功能和诊断方法遇到极大挑战,包括:线上传统的监控手段按照单一应用维度划分,烟囱式的监控手段不能有效帮助用户进行核心分布式应用的总体监控把控。由于线上数据量巨大,传统的链路抽样的方式容易导致问题链路被抽样,无法有效帮助用户针对关键具体问题进行问题定位。
解决方案
• 应用实时监控:通过将核心系统的调用统计接入到 ACOS,快速实现包括揽收、处理中心、投递、订单的4大业务系统的核心监控,线上运行情况全面实时掌控。
系统监控指标如应用RPC调用总量统计,错误率分布和响应时间分位数统计。关键业务指标揽收数,投递数,订单成交数等。业务场景包括:双11作战指挥室,运维故障诊断。
• 业务全息排查:通过将线上30+个子系统通过 Logger SDK 改造,将日志统一归属到。ACOS全息排查系统中,显著提高问题定位能力。
系统改造成本低,大部分改造通过注解方式直接完成。对接简便,通过ACPS提供的全息排查模板,日志分钟级接入完毕。业务场景包括:问题运单定位,系统故障定位。
icon案例四:中国联通-中国联通借助ACOS 集中号卡资源管理系统之监控挑战icon
背景/挑战
中国联通首个完全服务化、分布式,全面采用互联网云化企业架构的cBSS2.0集中号卡资源管理系统,在基于阿里云的架构和天源迪科的应用开发下,完成了在广西、内蒙古、黑龙江三省的快速上线。这是中国电信行业第一个全国集中的核心业务系统云化改造的重点工程,成为电信行业样本。
中国联通号卡资源管理系统上线以后,由于系统运行在上千个节点的分布式架构下,监控和管理难度面临了新的挑战,主要包括:监控指标复杂多样:分布式应用业务和数据指标多样,既有通用的JVM, OS通用监控指标监控报警;又有特定应用日志下的关键字监控报警,如”Error Stack”, “FullGC”等;还有业务指标如动态号卡充值、购买等业务数字的实时统计等,报警手段要求标准和定制化结合。分布式调用链诊断无法和业务相关联:如某号卡出现问题,无法通过对应的业务特征,如电话号码或用户ID,关联到特定对应的TraceID上去,因此和业务相关的链路诊断问题没有根本解决。缺乏快捷有效的问题展示手段:在当时的运维系统环境下,无法快捷方便地已有的系统异常进行有效的展示,作为领导或决策层很难获知系统当前运行情况。多云环境下监控复杂:未来会有多个曙光部署的云环境,无单独云产品对两套或以上环境进行同时监控。
解决方案
监控丰富监控指标360度无死角:应用监控提供标准 JVM,OS 层监控,自定义监控提高有效的能力让用户自行定制监控指标。两相结合,让用户快捷了解基础架构运行情况同时,体察真实的线上业务数据的动态状况,让监控诊断更有针对性。通过业务信息的链路诊断能力,让问题诊断效率成倍提升:全息排查将事件将业务属性,如号码、用户ID等,关联到调用链,用户可根据业务信息直接查询到问题链路。事件集功能辅助用户进行基于搜索的事件集中存放和排查,进一步降低诊断难度。配套各类业务大盘,让决策层第一时间掌握新系统业务动态:无论应用监控还是自定义监控,用户可快速定义出交互大盘,大盘开发效率缩短到一天之内。结合大盘的分享URL功能,最终大盘在监控室,微信公共号等多个场合应用。
灵活的非云部署架构方式,覆盖多云场景:
产品推荐 查看更多>>
    云掣安全生产可观测解决方案

    云掣安全生产可观测解决方案,助力数字化转型,为客户业务连续性保驾护航。支持web网站前端API请求与后端应用调用链进行关联查询,支持关系型数据和非关系数据库调用分析,捕获慢查询,Agent端预聚合,应用性能统计指标更准确。

    端到端的全链路监控

    数据库&NoSQL调用分析

    异常&错误分析

    调用链关联日志

    Whale帷幄开放云平台

    Whale帷幄开放云平台,通过 Alivia 基础服务体系和 Whale Open Platform 运维平台,无论公有云还是私有部署,都可以支撑企业端到端的营销运营体系。

    AI算法服务平台

    私有云部署

    低代码平台

    设备资产数字化管理

    智物联发电机组远程运维方案

    智物联发电机组远程运维方案,通过适配器(数据采集器)与发电机组控制器相连,获取到控制器里面的数据后,通过流量卡、WIFI等方式上传至互联网平台,用户可在手机、电脑端实时查看设备运行状况、了解历史数据、故障信息及远程控制设备的一套系统。

    数据安全

    自主开发

    建设经验丰富

    广泛接入