icon云原生发展带来的指标可观测挑战与痛点icon
• 观测对象种类多,覆盖与打通成难题
从基础设施、中间件、数据库到云服务、业务应用,数据源繁杂且一致性难保证,数据分散在不同运维系统中,缺乏统一管控视角。
• 观测对象动态化,实时监控困难
容器部署普及化,无法及时了解实例变更动态。
• 故障响应缓慢,运维协同敏捷要求高
业务迭代与用户体验要求更快的故障响应与恢复速度,缺乏工单协同管理和经验沉淀路径,依旧依赖手动运维,故障解决周期长。
• 可观测自建系统搭建/维护成本高
自建部署/维护过程复杂,项目周期长,SLA保障差,导致维护成本攀升。
icon从监控到可观测:指标、链路、日志可观测数据融合icon
icon开源自建Prometheus的方案弊端icon
Prometheus全面覆盖业务监控/应用层监控/˙中间件监控/系统层监控,结合 Grafana 和 Alartmanager 提供一站式指标观测体系。助业务快速发现和定位问题,减轻故障给业务带来的影响。随着Prometheus成为指标观测事实标准, Prometheus已从专精于Kubernetes容器观测延展到全栈指标观测。
自建要面临的问题 & 劣势
运维部署麻烦:自行安装告警/采集/可视化组件,配置复杂,维护频繁;稳定性受限:稳定性内存消耗大,复杂聚合查询需要64G以上内存,易触发稳定性问题;性能存在局限:单次采集的Metrics指标数量无法突破百万级别;运维成本高:存储能力受限于单节点本地存储规模,数据量为有限,远端存储方案带来额外运维成本。
icon产品介绍icon

阿里云Prometheus服务是完全兼容可观测事实标准 - Prometheus开源项目的全托管服务。默认集成Grafana看板与智能告警功能。一键观测主流云服务、自建组件/集群,覆盖业务监控/应用层监控/中间件监控/系统层监控。全面优化探针性能与系统可用性,用户无需关注系统可用性与Exporter自研集成。帮助企业快速搭建一站式指标可观测体系。

icon常见应用场景icon
icon产品架构icon
icon产品优势icon
icon产品优势一:开源兼容,性能强化icon

• 高性能:Agent 部署在用户侧,保留原生采集能力同时, 尽量使用最少资源; 通过采集存储分离架构,提高整体性能;采集组件优化,提升单副本采集能力,降低资源消耗;通过多副本横向扩展均衡分解采集任务,实现动态扩缩,解决开源水平扩展问题。高可用:采集/数据处理/存储组件支持多副版本,保证核心数据链路高可用;基于集群规模可直接进行弹性扩容;支持数据重传,彻底解决丢弃逻辑弊病,确保数据完整性与准确性;查询增强:通过DAG执行优化、算子下推,提升大规模数据查询性能并支持长时间区间秒级查询;通过Global DataSource和Global View实现对多集群统一监控与跨集群聚合查询;开源兼容:兼容标准开源prometheus.yaml采集规则配置文件、适合自定义K8s内监控采集规则ServiceMonitor、默认采集规则Annotation;兼容开源Exporter/Client lib;支持Remoto write,实现自建Prometheus的快速迁移;静态文件配置和动态发现机制发现监控对象,实现轻松迁移及接入。

icon产品优势二:云服务集成icon

云产品在各自控制台都提供自身产品的可观测性,但这些云产品的指标及看板散落在各控制台,且无法进行精细化的指标数据应用。Prometheus服务提供云产品监控功能,将这些数据进行统一展现、查询、告警,为运维团队提供更加便捷的日常运维监控界面。

目前已接入超过 50+ 款云产品,并持续增加!弹性计算类:阿里云 ECS;存储类、阿里云 SLS、阿里云 OSS等;网络类:阿里云 ALB、阿里云 API网关、阿里云 Connector、阿里云 CDN、阿里云 CEN、阿里云 DCDN、阿里云 Cloud NAT、阿里云 EIP等;数据库类:阿里云Clickhouse、阿里云Lindorm、云数据库MongoDB、阿里云 PolarDB、阿里云 RDS PostgreSQL、阿里云 RDS MySQL、阿里云 Redis、阿里云 RDS SQLServer、阿里云 Hologres、阿里云ADB、阿里云 DRDS、阿里云 DTS等;消息队列类:消息队列RabbitMQ、消息队列Kafka、消息队列RocketMQ等;大数据类:阿里云 E-MapReduce、阿里云 Elasticsearch、阿里云 Logstash等;中间件类:企业级分布式应用服务EDAS、微服务引擎MSE - 云原生网关、微服务应用引擎SAE、应用高可用服务AHAS等;运维&安全类:阿里云容器服务ACK、Grafana服务、性能测试PTS、阿里云 WAF等;
icon产品优势三:Grafana看板增强icon
预置常见云服务、应用等看板模板
默认集成应用实时监控服务ARMS、云监控CMS、日志服务SLS、阿里云Elasticsearch等云服务,提供各种云服务的数据源配置及预置大盘,实现各种可观测数据的统一展示。
Grafana自由扩展
在预置看板之外,可以通过Grafana官方自由增加新插件,添加新的可视化模板以及数据源,进一步满足个性化运维监控需求。
针对容器等主流服务提供Pro大盘模板
针对容器、消息队列Kafka等主流云服务,提供Grafana Pro大盘,帮助运维进行更加精细化的指标观测。
更加安全的权限管理体系
打通阿里云账号体系OSS(主子账号),并支持阿里云用户权限控制RAM。
icon产品优势四:智能告警管理增强icon
多渠道数据推送
支持钉钉、邮件、短信、webhook等10+ 监控数据源,确保及时触达
告警协作提升协同效率
基于钉钉的ChatOPS,借助报警管理、报警记录、历史查看,让告警变得可协作,可追溯,可统计
智能降噪
提供异常检查、智能降噪等算法能力有效减少无效告警
告警根因分析
基于应用上下文的告警根因分析,提升故障定位效率
icon产品优势五:多实例全局聚合查询icon

全局统一聚合查询,统一Grafana数据源,统一告警等能力

icon产品选型(自建 Vs 阿里云Prometheus监控)icon
icon产品集成组合 – 云原生可观测套件ACOSicon

通过与Grafana服务、链路追踪、应用实时监控服务ARMS、日志服务等阿里云产品组合,帮助企业构建融合指标、链路、日志的完整可观测体系,并广泛应用于IT成本管理、企业风险治理、智能运维、业务连续性保障、敏捷组织等不同运维场景。

icon应用场景一:业务自定义指标观测icon

场景&痛点:(1)监控范围宽泛,关注点无法聚焦;(2)业务指标无法与运维指标联动,及时关注并分析指标异常;最佳解决方案:根据业务特点,设定业务目标指标、业务服务质量指标、技术组件指标、基础资源指标,通过指标自定义,配置相关抓取任务,关联指标完整展现,提升数据关联性。

icon应用场景二:应用性能指标观测icon

场景&痛点:(1)应用性能监控多为独立监控工具,无法与其他监控工具进行有效打通;最佳解决方案:(1)与ARMS应用监控集成,预置应用性能指标观测大盘。(2)针对JVM、Go应用:可为应用埋点,使用ServiceMonitor配置服务发现。(3)针对VPC网络下ECS实例中Java应用,通过Actuator和Micrometer配置服务发现。

icon应用场景三:云服务指标观测icon

场景&痛点:(1)各个云服务可观测看板散落在各自控制台,无法在同一大盘进行统一监控。(2)自建用户想要监控云服务,需要自行开发定制Exporter,拖慢业务上线效率。且Exporter本身REST服务器带来线程消耗,接入云产品越多、指标越多消耗的资源也会增加。最佳解决方案:(1)通过企业云监控获取监控指标,Prometheus免费存储及应用。在用户运维成本未增加的前提下,获得了Prometheus更精细与灵活的的指标加工与应用能力。(2)Prometheus服务提供云产品自监控集成,云产品自监控集成相关指标来源于各云产品,为运维团队提供更加便捷的日常运维监控界面。

icon应用场景四:容器层指标观测icon

场景&痛点:(1)传统监控工具无法适配容器环境动态伸缩,手动配置难度大。开源Prometheus没有高可用架构,无法应对大规模集群海量数据采集、存储、查询需求;(3)Kubernetes 集群内自建数据库、中间件等组件缺乏监控手段。各个组件监控系统相对独立,无法形成统一监控体系,故障排查时间被大幅拉长。最佳解决方案:与阿里云容器服务ACK深度集成,配置容器集群过程中,即可开启Prometheus监控。针对容器提供工作负载性能监控、ingress性能监控、CoreDNS性能监控等组件,并提供专属观测大盘,节省自建监控面板的时间成本。统一大屏包含容器服务、应用组件、云服务和应用自身监控指标,同步云资源Tag进行业务维度监控数据展现;

icon应用场景五:多云ECS/线下IDC应用组件的指标观测icon

场景&痛点:(1)由于安全、组织管理等因素,业务通常部署在多个相互隔离的 VPC,需要在多个 VPC 内都重复、独立部署 Prometheus,导致部署和运维成本高。(2)缺少与阿里云 ECS 无缝集成的服务发现(ServiceDiscovery)机制,无法根据 ECS 标签来灵活定义抓取 targets。如果自行实现类似功能,需使用 Golang 开发(调用阿里云 ECS POP 接口)、集成进开源 Prometheus 代码、编译打包后部署,实现门槛高、过程复杂、版本升级困难。最佳解决方案:针对提供 MySQL、Redis 等数十种组件Exporter 。只需要在控制台配置基本信息,即可实现 VPC 内 ECS 上组件指标观测。线下 IDC 通过专线与 VPC 互通,也能采集到线下 IDC 内的组件指标。 针对未提供托管 Exporter 的组件或应用的自定义指标可在 VPC 或 IDC 部署自定义 Exporter 。 Node/Windows Exporter需部署在每台 ECS 上,以便采集 ECS OS 上观测信息。阿里云 Prometheus 提供 Node/Windows Exporter原生支持。

icon计费说明(按量付费 & 包年包月)icon

容器基础指标免费。上报自定义指标计费根据每天上报指标数量范围,按阶梯递减累加计算。存储指标费用:15天内免费,若手动变更存储天数超出15天,根据每天的指标上报数量,以每天存储每百万条指标计费0.01元进行累计计算。Prometheus实例 for 容器服务类型包年包月计费方式内置了性能监控套件和集成K8s事件能力,包括集成事件采集、工作负载性能监控、Ingress性能监控、CoreDNS性能监控功能。Prometheus监控实例的大盘将会自动升级为Pro版大盘。包年包月为容量规格和存储时长计费,而按量计费为上报指标采样点数量和存储时长。

icon计费对比(按量付费 & 包年包月)icon
icon奖项证书icon
icon客户案例icon
产品推荐 查看更多>>
    阿里云Serverless 应用引擎SAE

    Serverless 应用引擎(Serverless App Engine,简称 SAE)实现了Serverless 架构 + 微服务架构的完美融合,节省闲置计算资源。阿里云携手云巴巴提供一站式云计算产品选型和技术支持,拥有比官网更低的折扣和更完善的服务。

    性价比高

    高效稳定

    阿里云物联网应用(IOT)

    物联网应用开发 (IoT Studio),是阿里云针对物联网场景提供的生产力工具,可覆盖各个物联网行业核心应用场景,帮助您高效经济地完成设备、服务及应用开发。物联网开发服务提供了移动可视化开发、Web 可视化开发、服务开发

    可视化搭建

    与设备管理无缝集成

    丰富的开发资源

    阿里云负载均衡SLB

    阿里云负载均衡是云原生时代应用高可用的基本要素。通过对多台云服务器进行均衡的流量分发调度,消除单点故障提升应用系统的可靠性与吞吐力。阿里云SLB包含面向4层(TCP/UDP)的传统型负载均衡CLB和面向7层(HTTP/HTTPS/QUIC)的应用型负载均衡ALB,是阿里云官方云原生网关。

    多样化应用场景的负载均衡

    自带免费基础安全防护能力

    多种调度算法与转发模式

    提供多种管理途径的负载均衡服务