立即咨询

电话咨询

微信咨询

立即试用
商务合作

深度解读“监控”与“可观测性”的区别

2021-11-24

2018年,可观测性(Observability)被引入IT领域,CNCF-Landscape率先出现了Observability的分组。自此以后,“可观测性”逐渐取代“监控”,成为云原生技术领域最热门的话题之一。

云原生驱动,从“监控”到“可观测性”

在“可观测性”出现之前,我们常常使用“监控”这一概念。随着业务需求的变化、技术的发展,系统的可用性不再成为IT部门关注的唯一核心,数字化转型驱动业务部门转型的同时,也将IT部门的视角从IT资源转向业务与用户。

传统监控须追随数字化转型脚步

传统“监控”以系统的可用性为核心,观察并检查一段时间内的运行进度或质量,并进行系统审查,保持定期监督。由此看出,监控关注系统失败的因素,从而定义出系统失败的模型,据此设定告警。因此,监控是运维对监控设施(系统)所进行的明确地、可预测地审视与度量。

Gartner认为数字化转型以业务为中心,服务和用户体验是关键目标。而IT监控以系统可用为中心,仅关注系统可用性指标对于转型中的企业而言是一场灾难。到2023年,依赖于“正常运行时间”指标的监控实践将抑制90%的转型计划。过去,运维部门围绕着系统的可用性开展工作,故障诊断是第一要务;现在,一切以业务发展为导向,运维部门在保障应用可用的同时,更须衡量性能对业务以及最终用户所产生的影响,保障用户体验,为数字化业务赋能。

云原生为传统监控带来挑战

云计算作为企业数字化转型的动力之一在推动数字业务发展的同时,也为传统监控带来诸多挑战。云原生环境下,企业大规模地部署容器,应用节点呈指数级增长,故障可能发生在任意节点,无法感知与预测的因素越来越多;随着K8s的出现,过去运用监控解决的问题,都能通过自动化手段实现;传统的监控以系统可用性为核心,不涉及具体业务,而云原生环境下业务应用通过微服务、分布式架构进行部署,与开发、业务部门间的关联程度更紧密;传统的监控仅适合报告系统的整体运行情况,具体到细微末节,需要对系统行为进行高度细化的分析与关联···

随着企业从单体架构发展到分布式架构,采用微服务、容器等部署方式,IT基础设施变得愈发不可控。除此以外,还有许多企业开始采用Serverless等更符合云原生环境的技术方式,监控无法再单独以运维的视角、被动地解决故障为目标,而要追随IT架构的改变、云原生技术的实践,融入开发与业务部门的视角,具备比原有监控更广泛、更主动的能力,这种能力被称作“可观测性”。

“可观测性”究竟是什么?

云原生环境,一切以业务应用为核心。“可观测性”能力亦是如此。由于云原生应用的创新迭代速度加快,“可观测性”将传统监控的外延放大,把研发纳入“可观测性”能力体系之中,改变传统被动监控的方式,主动观测与关联应用的各项指标,以“上帝视角”让系统恰当地展现自身状态。

“监控”是“可观测性”能力的一部分

任何时代都需要监控,但监控早已不再是核心需求。运维是传统监控的使用主体,通过告警与整体分析往往可以快速排障。然而,一旦需要剖析导致故障产生的深层原因往往就需要研发的介入。云原生环境,系统架构愈发复杂,通过研发追溯源代码定位故障节点难度较大,需要在设计系统之初就考虑这些问题。DevOps作为云原生技术的基础能力之一,改变了开发、运维之间的协作方式,从根本上为实现“可观测性”能力创造前提。

因此,“监控”虽是“可观测性”能力的一部分,但研发的介入使得“可观测性”从过去的被动监控转向主动的发现与分析。

“主动发现”是“可观测性”能力的关键

业界将“可观测性”能力划分为5个层级,其中告警(Alerting)与应用概览(Overview)属于传统监控的概念范畴。由于触发告警的往往是明显的症状与表象,但随着架构与应用部署方式的转变,不告警并非意味着一切正常,因此,获取系统内部的信息就显得尤为重要,而这些信息则须借助“可观测性”能力的另一大组成部分——主动发现(Preactive)。

“主动发现”,由排错、剖析与依赖分析三部分组成:

  • 排错(Degugging),即运用数据和信息去诊断故障出现的原因;

  • 剖析(Profiling),即运用数据和信息进行性能分析;

  • 依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。

这三部分同样存在严谨的逻辑关系:首先,无论是否发生告警,运用主动发现能力都能对系统运行情况进行诊断,通过指标呈现系统运行的实时状态;其次,一旦发现异常,逐层下钻,进行性能分析,调取详细信息,建立深入洞察;再次,调取模块与模块间的交互状态,通过链路追踪构建“上帝视角”。主动发现能力的目的并不是为了告警与排障,而是通过获取最全面的数据与信息,构建对系统、应用架构最深入的认知,而这种认知可以帮助我们提前预测与防范故障的发生。

如何运用“可观测性”能力?

“可观测性”能力的应用离不开数据与信息,而日志(logs)、指标(metrics)与链路(trace)是最重要的数据信息源:

  • 日志信息(logs),即记录处理的离散事件。它展现的是应用运行而产生的信息或者程序在执行任务过程中产生信息,可以详细解释系统的运行状态。日志数据很丰富,但是不做进一步处理就变得难以理解。

  • 追踪链路(trace),处理请求范围内的信息,可以绑定到系统中单个事务对象的生命周期的任何数据。Trace在很大程度上可以帮助人们了解请求的生命周期中系统的哪些组件减慢了响应等。

  • 指标信息(metrics)。Metrics作为可聚合性数据,通常为一段时间内可度量的数据指标,透过其可以观察系统的状态与趋势。

理想状态下,我们一般通过可观测性能力整体观察系统的健康度,借助“主动发现”的三个层级,提取应用系统的实时指标,调取相关的日志信息,最后通过发现应用模块之间的关联,实现全链路追踪,进而构建对整个应用体系的审视与洞察。作为全球最大的云原生开源社区,CNCF推出的Open Telemetry以期实现理想状态下的大一统:统一Logs、Trace、Metrics三种数据协议标准,使用一个 Agent 完成所有可观测性数据的采集和传输,适配众多云厂商,兼容CNCF上众多的开源与商业项目···但是至今未有厂商或开源项目可以统一Open Telemetry后端,三种数据源的统一存储、展示与关联分析仍面临极大挑战,而解决以上问题的前提,仍然是统一数据源(数据格式)。

从迈入云原生的那一刻起,技术更新迭代的速度明显加快。而一项技术的发展总会带动相关技术的进步,从“监控”到“可观测性”,更丰富的技术、组织、内容融入其中,建构出对整个应用更宏大的认知。而这种认知如果以统一的数据信息为依托,将会大大提高“主动发现”的能力,理想状态也终将成为现实。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

基调听云智能可观测性平台基调听云新一代贯通全栈IT与业务的智能可观测性平台,涵盖五个层面的能力升级:一是全栈数据采集,二是多维多源智能分析,三是以应用和业务为中心,四是可观测数据的纵横融合打通,五是全方位可观测,帮助企业从容应对数字化时代挑战,助力业务增长。
腾讯云即时通信IM腾讯云即时通信IM,覆盖全平台、低门槛快速集成,可与TRTC、云直播、云点播、互动白板等产品协同使用。支持文字、表情、图片、短语音、短视频、文件、位置等多种消息类型,提升用户活跃度 。好友工作群、陌生人社交群、临时会议群、直播群、社群等多种群组类型,满足特定群聊场景,丰富社交手段。
航信云享·票据管理系统航信云享·票据管理系统为全量票据收集,建立企业全量票据中心。自动处理价格、折扣、税率和合计等发票信息,大大减少人工处理的误差,提高了工作效率。对企业的票据管理进行系统化、统一化的管理,提高了票据管理的效率和准确性,为企业节省了时间和人力成本。
吉客云吉链分销平台吉客云吉链分销平台为吉客云的业务链接子系统,连接吉客云企业与企业之间的业务关系。多种关系(货主委外发货、生产委外加工、代理销售、物流代发)的业务往来和协同,以及业务伙伴的发现。
百度智能云曦灵智能数字人平台百度智能云曦灵-智能数字人平台,致力于打造智能的服务型&演艺型数字人,面向金融、媒体,运营商、MCN,互娱等行业,提供全新客户体验及服务。该平台可进一步降低数字人应用门槛,实现人机可视化语音交互服务和内容生产服务,有效提升用户体验、降低人力成本,提升服务质量和效率。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
企业办公该选什么软件?腾讯云赋能招聘-培训-会议-文档-项目-离职全流程

企业办公该选什么软件?腾讯云赋能招聘-培训-会议-文档-项目-离职全流程

2025-07-08
TAPD企业版从入门到精通的超全面指南,管理员必看!

TAPD企业版从入门到精通的超全面指南,管理员必看!

2025-07-08
企业智能配送方案怎么选?洞隐TOS云以智能优化赋能数字化物流

洞隐TOS云作为智能物流解决方案,通过订单管理、路径规划及智能优化功能,提升运输效率、降低运营成本并增强客户体验,助力企业实现高效智能物流配送。

2025-07-08
物流成本优化方案如何选?洞隐TOS云智能引擎助力企业降本增效

针对订单波动、人工调度低效等行业痛点,洞隐TOS云通过智能调度管理系统,集成订单归集、多约束路径规划及智能优化功能,助力企业降低运输成本、提升调度效率,推动物流管理数字化转型。

2025-07-08
查看更多