icon客户业务与方案痛点icon
数据时效性不高

业务报表统计滞后:通过T+1报表无法满足日益增长的业务数据分析与展现需求。业务数据无法实时流入分析系统:通过夜间批处理进行数据的导入,导致数据无法得到及时的分析。离线机器训练与学习无法应对用户的变化:数据模型的特征时效性较低,很难做到特别高时效性的更新。

处理能力与弹性不足

单体在线应用处理能力不足:在线应用无法满足数据处理毫秒级响应,也不能方便的使用SQL实现开窗聚合和复杂事件处理(CEP)。流量波动,集群缺弹性:周期性的流量波峰波谷,集群需要适应性的伸缩,直面供应链成本冗余或者不足的问题,以及频繁变更集群的运维成本问题高。作业修改配置或者资源重启时间长、无法复用之前状态:作业变更后需要重启生效,启动时间长,且在逻辑变化后状态无法复用,需要重新消费处理。

平台维护困难

开源组件拼接使用,过于复杂:实时离线链路分别维护,组件繁杂,且数据口径无法对齐、组织架构割裂、技能无法复用等问题突出。高稳定性要求,成本高:不仅需要客户针对业务需求进行业务开发,还需要用户开发并维护作业运行平台,全链路的稳定保障要求极高,人效成本也很高。链路冗长,问题难定位:数据链路端到端流程太长,一旦异常定位问题成本很高;缺少实时计算相关最佳实践的输入,出现问题定位的准确性和速度都是很大挑战。

icon阿里云Flink产品介绍icon

实时计算 Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。在阿里云实时计算团队目前是全球最大、拥有 Committer 数量最多、专业性最强的 Flink 团队,为实时计算用户提供企业级的管理和咨询服务。

icon阿里云实时计算Flink版简介:产品技术架构icon

企业级引擎功能与性能领先社区,平台化能力帮助用户专注于实时业务实现与运行

icon阿里云实时计算Flink版简介:产品功能架构icon
icon成本与性能优势分析:高性能、高弹性、充分利用资源icon
阿里云实时计算Flink
性能优越 1.5-2倍社区性能Nexmark 流计算标准测试性能是开源 Flink 的 2-3 倍,主要依靠企业版 SQL 算子优化和自研状态存储内核 Gemini 带来的性能提升,API 和社区保持一致
智能调优 无人值守自动监控并调整作业资源分配,同时具备全自动根据负载自动资源调整能力,帮助用户平稳顺利地度过业务洪峰,同时最大程度的节省用户成本
细粒度资源调优 支持算子级别(SQL和Datastream均支持)的精细化资源配置(CPU/Mem),大规模作业资源利用率提升100%
Serverless 弹性 集群弹性扩缩容,对已运行作业无影响
icon成本与性能:企业级Flink引擎VVR 性能提升icon

使用Nexmark中的用例和相同的硬件资源,测试并对比了VVR 6.0 和对应开源版本Apache Flink 1.15,平均性能是开源的两倍

icon成本与性能:企业级状态后端存储引擎性能提升icon

GeminiStateBackend是一款面向流计算场景的KV存储引擎,并作为实时计算Flink版产品的默认状态存储后端,大规模应用在阿里巴巴集团和阿里云客户生产实践当中。核心能力如下:多流场景join下大幅提升效能,提升资源利用率。全新的架构和数据结构设计,全面的性能提升。支持存储计算分离,彻底摆脱状态数据的本地盘存储限制。自适应参数调优,告别手动调参烦恼。

icon平台功能介绍:一站式开发运维平台icon
Step1-业务开发
在控制台上进行SQL作业开发
模版中心(20+),加速作业开发
开发过程,SQL语法的正确性检查
更清晰地展示资源使用情况
Catalog元数据管理和引用
Step2-调试测试
用session集群来临时运行作业
控制台预览结果表的数据
调式数据生成
Step3-运行运维
作业提交启动作业
资源配置建议与自动调整
全新流批启动模式
状态集的生命周期管理
资源设置:资源配置建议
20+作业诊断规则及风险提示
icon平台功能介绍:流批一体的作业开发与运行icon
icon平台功能介绍:纯SQL开发,简单易用,专注业务icon
一分钟上手IDE, Flink SQL 一等公民
● 内置SQL函数,鼠标悬停提示
● SQL语法校验,完善的错误提示
● SQL作业版本管理、不同版本的对比
● SQL Web-IDE 可视化编辑器
● SQL DDL 声明Schema
● UDF 上传、管理
● 支持内置/外部Catalog管理表信息
● 支持文件夹和编辑锁
● 支持用户自定义UDF上传、使用和管理 同时支持Datastream Jar与PyFlink提交
icon平台功能介绍:SQL代码模板,场景化代码示例icon
解决最常见的问题:Flink SQL不会写
●提供了21种代码模板
●每种代码模板都为您提供了具体的使用场景、代码示例和使用指导
●通过代码模板快速地了解Flink产品功能和相关语法,实现自己的业务逻辑
icon平台功能介绍:统一元数据管理带来的开发便捷,湖、
仓、数据库、消息队列的元数据使用和管理icon
● Hive Metastore
可以在Flink全托管开发控制台上直接使用DML创建业务逻辑,获取Hive中表的元数据信息,无需再使用DDL语句声明相应的表信息。Hive Metastore可以作为Stream作业和Batch作业的源表或结果表。
● Hologres Catalog
在Flink全托管控制台直接读取Hologres元数据,包括数据库、表、分区、视图。不用再手动注册Hologres表,可以提高作业开发的效率且保证数据的正确性
● DLF Catalog
阿里云官方提供的一款统一元数据管理的产品,表格的格式可以是流行的开源格式,例如Iceberg、Hudi
● MySQL Catalog
在Flink全托管控制台直接访问MySQL实例中的表,无需通过DDL语句手动注册MySQL表,直接作为Flink SQL作业中的MySQL CDC源表、MySQL结果表和MySQL维表,支持RDS MySQL、PolarDB MySQL或自建MySQL,支持直接访问分库分表逻辑表,支持配合CDAS和CTAS语法完成基于MySQL数据源的整库同步、分库分表合并同步、表结构变更同步
● Kafka JSON Catalog
Kafka JSON Catalog通过自动解析JSON格式的消息来推导Topic的Schema,无需在Flink SQL中声明Kafka表的Schema便可以获取消息的具体字段信息
icon平台功能介绍:简单快速实现SQL调试,支持模拟数据生成icon
像使用数据库一样进行 SQL 调试
• 方便查看数据源的数据
• 结果表的preview查询展示
• 系统函数和自定义UDF的验证
• 支持手动上传CSV文件做为测试数据
• 支持选择部分语句单步调试
• 支持模拟数据生成(行数、速率、格式,范围等),更便捷地生成贴近业务含义的测试数据,满足您开发测试中验证业务逻辑的需要
• Session集群作业启停迅速,加速调试
icon平台功能介绍:作业异常判断、监控与告警icon
整体监控
作业运维大盘上,整体查看“正常”,“风险”,“异常”的作业和数量。系统每分钟刷新状态,风险为分为 高/中/低。风险为“高”,则作业可能运行异常和数据不准。
作业告警-Flink控制台
1分钟内Job Manager重启次数,5分钟内Checkpoint成功次数,数据发生时间与数据离开Source算子的时间差值,每秒输入输出记录数,每秒输入输出记录数。
作业告警-ARMS控制台
支持所有作业metric进行配置告警
支持告警规则配置
作业的数据曲线大盘
常见指标场景:反压,Source端性能,数据倾斜。指标大类:overview,checkpoint,State,Network,IO,Watermark,CPU,Memory,JVM,共几十种。包括connector的metric,支持API方式获取。
icon平台功能介绍:作业资源自动调优-全自动调优icon
icon平台功能介绍:作业资源自动调优-定时调优icon

很多业务都具备可预见性的、周期性的流量高峰段和低谷段,例如电商平台每年双十一、直播平台晚高峰时期,可以根据压测确定的资源用量,设定Flink作业不同时段的资源使用量,为业务洪峰提前做好资源准备。

icon平台功能介绍:作业智能诊断,一键诊断问题icon

产品能力孵化于阿里巴巴集团,在内部各种实时应用的作业上有着广泛的应用,具备成熟的经验和能力

icon平台功能介绍: Flink作业State的全生命周期管理icon

Flink作业有状态的计算,对于用户业务稳定性、业务连续性、灵活性等至关重要

icon平台功能介绍:灵活的被集成能力icon

基于OpenAPI 的集成能力、CI/CD*、本地开发*

icon平台功能介绍:安全权限管理icon
基于项目空间:
● 作业和资源的独立
● 用户独立 基于功能操作:
● Owner:全功能
● Editor:无法修改模板和成员管理
● Viewer:可以查看作业,但无法修改配和启停作业
icon引擎能力介绍:内置丰富的上下游数据连接(Connector)icon
Connector是数据在上下游流动的关键,如何有一个稳定、有强大技术支持、无需自己再开发的Connector对于开发效率、生产稳定性都至关重要。涵盖阿里云产品/开源社区30+主流引擎,涉及数据库、消息中间件、数据仓库、湖格式、文件系统等多种上下游存储,远多于开源,且有企业级技术支持与持续迭代。在存储,调度、网络传输等方面,都调试到最佳效果,正确性和性能有保障。提供比开源更加丰富的监控指标,并提供监控、告警能力。具备完善文档说明,with参数详细说明和代码实例。平台支持用户自定义Connector和Format上传、使用和管理。
icon引擎能力介绍:业务连续性 -- 失败快速恢复icon
icon引擎能力介绍:业务连续性 -- 参数热更新icon

开源Flink 修改并发度等参数需全局重启 -> 阿里云Flink在线热更新,基于当前作业修改生成新作业

icon引擎能力介绍:业务连续性 -- 参数热更新的原理icon
icon引擎能力介绍:业务连续性 -- 参数热更新的原理icon
icon引擎能力介绍:业务连续性 -- 参数热更新的结果对比icon
icon引擎能力介绍:Flink CDC的数据实时入湖入仓icon

基于Flink CDC,One SQL,One Job,Distributed Canal、 Debezium 、Maxwell、各种数据同步集成工具的替代品

icon引擎能力介绍:实时入湖入仓 -- 全增量一体化并发读取icon
icon引擎能力介绍:实时入湖入仓 -- 表结构变更自动同步icon
icon引擎能力介绍:实时入湖入仓 -- 分库分表与整库同步icon
icon引擎能力介绍:动态CEP – 工作原理icon
icon引擎能力介绍:实时数据入仓阿里云Hologresicon
icon引擎能力介绍:流式数仓 Flink Table Store 能力icon
icon引擎能力介绍:流式数仓 Flink Table Store 基本原icon
icon业界认可 – 国内icon
icon业界认可 – 国际icon
icon典型场景与方案icon
icon典型场景与方案:基于阿里云技术产品的实时数仓icon
icon典型场景与方案:基于开源技术架构的实时离线数仓icon
icon上述实时数仓面临的问题和挑战icon
icon典型场景与方案:Flink + Hologres 构建实时数仓icon
icon典型场景与方案:Flink + Hologres 流批一体数仓icon
icon典型场景与方案:基于 Flink Table Store 的流式数仓icon
icon典型场景与方案:基于CEP动态规则的实时风控平台icon
基于Flink CEP的增强复杂事件处理引擎
架构特点:
通过分离应用框架与规则将 开发人员与策略人员 解耦,释放IT效能。规则描述存储在Hologres/RDS中,便于查看规则状态和维护历史版本。规则变化只需修改存储中的规则,Flink自动加载规则更新保证业务连续性。结合Flink生态,可以轻松扩展Source和Sink。结合Flink分布式能力,可以大规模扩展到上千并发度。
适用领域:
• 金融、零售行业实时风控
• 电商、出行实时营销运营
• 安全分析态势感知
icon典型场景与方案:实时大屏icon
icon典型场景与方案:实时监控icon
icon典型场景与方案:在线机器学习icon
icon具体案例:满帮集团实时业务上云方案icon
客户背景 满帮集团全心全意帮助司机和货主,助力物流降本增效,利用移动互联网、大数据、人工智能等新技术,打造智慧物流生态平台,提升“车找货、货找车”的智能化和标准化,改变传统物流行业“小、乱、散、弱”的状况。旗下运满满货运平台一站式解决货运全链路问题,百万司机一秒响应。
业务痛点 原有自建集群上运行实时作业稳定性差,严重影响业务,自建整体运维成本较高
解决方案 从开源自建向托管云服务迁移。具体如下:阿里云实时计算 Flink 版平台采用了云原生全托管架构,部署、资源隔离在上面都具有天然的架构先进性,CU 级别智能弹性扩缩容有效提升性价比。在自己搭建 Flink on Yarn 的时候,发现底层的资源隔离和资源之间的影响有很大的波动性。
 
阿里云实时计算 Flink 版平台的云原生资源隔离能力可以实现作业级和代码级的隔离,减少互相影响,技术领先性创造平台稳定性。阿里云实时计算 Flink 版开发平台,它的 metrics 采集系统、SQL 开发、资源调优明显改善开发效率,运维工作量和成本显著降低。
达到效果 迁移的 Flink 任务有 560 个,迁移时间仅需 1.5 个月。迁移过后,经过一段时间的观察,我们发现 SLA 的指标从 95%提升到了 99%。另外在运维人效方面,从原来的三个人到现在的一个人,全年节约了420 人天。在开发的效率方面,每个任务的开发、调优、上线可以提前两天。如果按照每年 300 个任务,就是节省了 600 人天。最后基于阿里云对 Flink SQL 和底层 state 状态的深度优化,我们发现平均一个 Flink SQL 任务消耗 6.67CU 的资源,而上了阿里云过后,可以节省 40%的资源。这样算下来,整体可以达到 35%的资源节省。
icon具体案例:钱大妈实时风控与营销系统构建icon
客户背景 钱大妈是在社区生鲜连锁中,以"不卖隔夜肉"作为品牌理念的的行业开拓者。在成立之初即从新鲜角度重新梳理传统生鲜行业的标准,对肉菜市场进行新的定义。钱大妈已全国布局近 30 座城市,门店总数突破 3000 多家,服务家庭超 1000 万。
业务痛点 除了数仓的分析场景以外,钱大妈面临着业务系统中的风控需求,例如每季度的营销费用中被不少的羊毛党薅走正常用户的利益,其中羊毛党一方面可能导致用户的口碑下降,另一方面也会影响原有的活动运营预算迅速攀升从而导致资损。钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。
 
解决方案 目前钱大妈基于Flink、Hologres构建了离线和实时数据一体化的全渠道数据中台,为各业务线提供 BI 报表及数据接口支持。
达到效果 基于 Flink 的实时风控解决方案已接应用于钱大妈集团内部生产环境,在此解决方案里未引入新的技术组件和编程语言,最大化复用 Flink 资源实现实时风控场景需求,极大降低新组件引入存在的潜在运维风险。另一方面也极大降低研发团队的学习成本,高效释放实时计算的人力资源,并且对于研发和业务应用上面带来如下好处:解耦 Flink 作业逻辑开发和业务规则定义;业务规则存储在 Database 中,便于查看规则当前状态和历史版本;规则变更只需修改 Database 存储的规则,Flink 自动加载更新作业中的规则列表;结合 Flink 生态能够非常容易集成事件异构数据源的读取与写入;结合 Flink 分布式能力,大规模扩展至数千并发度匹配运行规则。
icon具体案例:全球Top 20 的某游戏公司实时数仓架构演进icon
业务痛点
客户原数仓架构使用全套开源组件,其中开源Flink做ETL处理,处理后写入ClickHouse、Starrocks等OLAP引擎,出现ETL链路复杂、OLAP架构冗余,查询慢等问题
解决方案:阿里云Flink+Hologres全面替换开源架构
数据源数据通过Flink CDC能力写入Kafka做前置清洗,清洗后通过Flink进行ETL处理。Flink ETL后的数据实时写入Hologres,通过 Hologres 替换了Kafka作为实时数仓的中间数据层,统一了流批存储。在Hologres中根据ODS > DWD > DWS层汇总加工。在ODS层,Flink订阅Hologres Binlog,计算后写入Hologres DWD层,DWD层在Hologres中汇总成DWS层,最后DWS对接上层报表和数据服务等业务。
达到效果:架构统一,性能提升100%
数据可以实时写入Hologres,写入即可见,并且Hologres有主键,能够支撑高性能的写入更新能力,百万级更新毫秒级延迟。阿里云Flink提供Schema Evolution的能力,自动感知上游表结构变更并同步Hologres,改造后的实时ETL链路通过订阅Hologres Binlog日志来完成,降低链路维护成本。通过Hologres统一了数据查询查询出口,经过客户实测相同的查询Hologres相比开源ClickHouse达毫秒级延迟,性能提升100%甚至更多,JOIN查询性能快10倍。升级后数仓架构变得更加灵活简洁,统一了存储,只需要一套系统就能满足业务需求,降低运维压力和运维成本
icon具体案例:长城汽车,主机厂车企的数据中台icon
客户背景 长城汽车股份有限公司是全球知名的SUV制造企业,于2003年、2011年分别在香港H股和国内A股上市,截止2017年底资产总计达1105.47亿元。长城汽车行业业务链路长,包括营销、研发、制造、供应链、售后、车联网、自动驾驶、出行等业务板块,数据架构复杂,应用场景多样,需要构建企业级的数据平台,整合拉通不同板块的数据,推动各板块的业务创新。
业务痛点 数据链路长,数据体量大,数据结构复杂,全产业链超过4万个字段,主机厂年增长数据量为PB级,但主机厂的IT能力难以更上业务数据的增长,急需要打造一个强大的数据平台,并培养一支成熟的中台团队。新业务快速发展,包括智能网联在内的数据体量快速增加,网联数据长期托管在第三方平台,项目成本急剧增加,需要通过内部整合各业务板块数据,实现数据的拉通共享,推动各业务板块的创新应用。
解决方案 汽车制造业的标杆案例,落地了maxcompute+hologres+flink+dataworks的完整大数据架构,帮助长城汽车构建了数据仓库、实时交互式分析、流式计算较为完整的大数据应用链路,打造企业级数据中台,支撑研发、制造、供应链、车联网、数字化营销等企业核心业务的统一数据服务平台,并落地了数字化营销、供应链透明化、车联网智能补贴分析在内的数据创新应用,实现了数据的业务创新,并获得了内外部的广泛认同。
达到效果 长城汽车通过全域数据中台实现全球生产经营准实时分析,整合53个领域的业务数据,实现数据价值最大化,数据驱动企业变革与创新;并通过数据中台项目打造了超过50人的数据中台团队。全球经营决策分析由之前的3天以上的统计汇报缩短到分钟级准实时响应集团质量数据分析由之前的5分钟以上缩短到1秒快速响应制造物料实时分析由之前的分钟级缩短到秒级。通过构建车联网大数据分析应用,新能源车补贴额度年提升数百万元
icon具体案例:某跨境电商实时数据入仓方案icon
客户痛点
1. 数据源复杂
• 海外Aurora, MariaDB 等多种异构数据源。其他产品兼容性不足
2. 数据量庞大:
• 5万多张表。其他产品性能瓶颈明显
3. ETL 需求:
• 分库分表合并需带上库名表名信息。其他产品对 ETL 能力支持不足 4. 全量方案、增量方案割裂
• 需维护两套链路,成本较高
Flink CDC 解决方案
1. 兼容 Aurora, MariaDB, MySQL 等多种数据源
2. 性能优异,水平扩展能力强
3. 强大 Streaming ETL 能力,原生支持分库分表合并
4. 全增量一体化同步,无需维护离线实时两套链路
icon具体案例:天猫核心交易数据流批一体化计算icon
icon 具体案例:微博实时机器学习系统构建icon
产品推荐 查看更多>>
    阿里云 云安全中心(态势感知)

    云安全中心(态势感知)是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、镜像安全扫描、合规检查等安全能力,帮助您实现威胁检测、响应、溯源的自动化安全运营闭环,保护云上资产和本地服务器并满足监管合规要求。

    百万级服务器主机装机量

    支持对全网服务器主机、容器、云产品的威胁管控

    主动拦截主流病毒木马,全面漏洞扫描

    收集3大类型14类服务器主机日志,250+威胁检测模型提供全链路的威胁检测能力

    阿里云弹性裸金属服务器

    弹性裸金属服务器(ECS Bare Metal Instance)是基于阿里云完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品,兼具虚拟机的弹性和物理机的性能及功能特性。

    云原生应用最佳载体

    安全可靠,卓越性能

    特性无损,支持二次虚拟化

    分钟级交付,弹性扩容

    阿里云云安全中心(态势感知)

    云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等安全能力, 帮助用户实现威胁检测、响应、溯源的自动化安全运营闭环,保护云上资产和本地主机并满足监管合规要求。

    全网威胁管控

    跨平台部署,统一控制台管理

    防病毒、防勒索、防篡改