icon数据总线DataHub-阿里云自研数据总线icon

提供对流式数据的采集、存储、分发功能。用户可以基于DataHub轻松构建基于流式数据的分析和应用。【数据采集】:提供SDK、插件、兼容Kafka Producer协议,帮助您采集各类业务数据。【数据存储】:采用存储计算分离架构,计算避免数据热点,存储使用自研盘古系统,具备高安全、多副。本、强稳定的特点,SLA达99.99%【数据投递】:支持涵盖几乎所有阿里云计算引擎,系统无缝对接,连接性好。

icon产品技术架构icon

负责用户的接入,同时会对Data进行格式化,然后传给Xstream。与pangu的存储集群交互,读写数据, 同时有Metric采集,资源回收等模块。负责将DataHub中的数据同步到其他产品,处理订阅的创建删除,协同消费以及订阅点位的保存和获取。所有模块均运行在Fuxi集群中,以Fuxi Service形式进行管理。系统采用存储计算分离架构,数据均存储与Pangu集群中,不依赖本地磁盘。

icon产品优势icon
高稳定
脱胎于阿里内部实时传输系统,支持历年双十一,久经考验,稳定可靠
高可用
服务可用性不低于99.9%。规模自动扩展,不影响对外服务;数据持久性不低于99.999%。数据自动多重冗余备份。
高吞吐
最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日百GB级别的写入量。每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题25万RPS 的吞吐量。
高安全
提供企业级多层次安全防护,多用户资源隔离机制;提供多种鉴权和授权机制及白名单、主子账号功能。
icon数据总线DataHub—数据采集icon

数据采集:提供多种SDK、API和第三方插件以及Kafka协议,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,进行统一管理,消除数据孤岛。

功能详述
日志文件:Logstash插件、Flume插件,数据库日志:数据集成 *、DTS *、Canal插件,支持对接OGG、Fluentd,在线消息/应用文件/IOT数据:SDK(Java\C++\Go\Python),用户/ISV生态:DataHub兼容Kafka协议(Kafka版本0.10.0 -> 2.4.0),用户可以利用Kafka原生API将数据直接采集投递。
客户案例
客户名称:国家电网,客户场景:使用DataHub的OGG插件,将数据从线下自建Oracle数据库同步到数据总线DataHub中,打通了用户IDC和阿里云系统间的数据通道,让大数据可以服务传统企业实时化转型。客户价值:利用数据总线DataHub完成数据的统一采集,避免使用和维护多套采集系统,轻松构建大数据平台。
icon数据总线DataHub-数据存储icon

数据存储:灵活设置存储时间,保证下游系统可重新消费数据,自身自动提供数据多备份和存储加密,具备跨机房容灾功能,安全可靠。

功能详述
存储层次:1)Project:项目空间,往往归属于某个业务项目或者团队。2)Topic:主题,对应业务上的一张表,分为Blob和Tuple两个类型。 Blob类型:仅支持写入一块二进制数据。 Tuple类型:支持类似于数据库的记录的数据,每条记录包含多个列。3)Shard:数据进入管道,为Topic动态扩缩容,Shard数决定数据进入Topic的最大流量。 存储方式: 基于阿里云自研分布式文件系统盘古,多副本备份,保证用户数据安全。
客户案例
客户名称:虎扑,客户场景:利用实时计算Flink和DataHub搭建实时数仓系统,将DataHub作为流式存储系统,每一个Topic对接数仓中的一张表。客户价值:利用DataHub存储计算分离的架构,避免热点数据的产生;DatatHub自身存储系统的多副本备份,异地容灾,传输加密功能也保证了用户存储数据的安全和稳定。
icon数据总线DataHub-数据投递icon

数据投递:提供DataConnector模块,简单配置即可把接入的数据实时同步到下游系统(如MaxCompute、OSS、TableStore等主流系统)极大减轻了数据链路的工作量,实现一投多消。

功能详述
同步消息:支持将对应Topic中的数据实时/准实时的同步到第三方阿里云产品中,打通阿里云产品间的数据流通。如MaxCompute、Hologres、ADB、ElasticSearch、OSS、TableStore、RDS等。订阅消息:支持数据被下游实时计算引擎消费,提供断点续消费能力,如Flink、SparkStreaming等,同时支持协同消费功能,即支持多个消费者同时消费一个Topic。
客户案例
客户名称:众安保险,客户场景:使用DataHub下游对接多种阿里云计算引擎的优势,将数据投递Flink、ODPS、ES等多种计算引擎中。客户价值:DataHub与下游计算引擎结合更紧密,服务全托管,用户无需运维,更省成本。一份数据,多个团队共享,实现数据民主化。
icon最新特性icon
支持kafka的数据写入
完全兼容Kafka协议,可以当做kafka来用 *使用kafka方式消费Topic必须开启Shard水平扩展
支持OMS接入
datahub的计量信息,推送到oms
支持VPC权限控制
即单个datahub实例增加vpc绑定权限,仅有vpc内用户可以访问。支持绑定1个或多个vpc,支持解绑。
支持MaxCompute 2.0的最新类型
例如varchar、timestamp、复杂数据类型:Array、Map、Struct,等等
控制台改进
Topic详情界面增加当前总存储量/当前存储量等信息
多系统支持
Intel 系列
国产化:海光、飞腾、鲲鹏系列
支持不同类型集群混布
icon阿里云DataHub典型场景-金融行业icon
实时风控架构
挑战:对金融行业而言,安全和稳定时第一要务,因此风控是其核心业务。例如交易欺诈,账号信用评估,均需要在实时的时间内做出判断,才能避免造成损失。传统风控系统需要从依赖专家规则到智能风控的实时化转变。解法:利用数据总线DataHub,将用户不同系统的数据投递风控模型和实时计算引擎Flink中,做出业务判断,再通过数据总线将消息发送到业务系统中完成整个流程。价值:利用数据总线DataHub丰富的SDK和采集插件,用户业务数据稳定采集传输到实时计算引擎中,进行实时风控分析,构建大数据时代实时风控系统。代表客户: 浙江泰隆银行、广东顺德农村商业银行。
实时采集✅ 实时分发✅
icon阿里云DataHub典型场景-电商/物流行业icon
实时数仓架构
挑战:数仓本质是把各种业务系统产生数据的通过一定的方式(数仓构建方法论)统一处理,从而产生更大的业务价值。随着业务向实时需求的转型,传统T+1的离线数仓已经无法满足业务需求。解法:利用数据总线DataHub和实时计算引擎Flink构建实时数仓系统,将数据分为:公共明细层(dwd),公共汇总层(dws),应用结果层(ads),使用Kappa架构构建整个体系。价值:满足业务对实时性的需求,做到了数据复用,减少重复计算与存储;同时使得业务指标口径统一,避免混乱;实时数仓清晰的架构也为日后业务的扩展提供了方便。 代表客户: 格格家、菜鸟物流。
实时采集✅ 数据存储✅
icon阿里云DataHub典型场景-在线教育/公共安全行业icon
实时视频分析
挑战:互联网技术的快速发展,让视频和短视频行业快速崛起。一方面我们利用视频技术传播分享知识,要确保整个流程的稳定性;另一方面也要注意不法之徒利用视频流量从事非法活动,这对互联网视频行业提出了新的需求。解法:利用数据总线DataHub和实时计算引擎Flink构建实时视频分析系统,满足大数据量场景下数据的实时模型分析,对违规视频快速处理,同时将数据同步投递到离线计算中训练准实时模型给业务使用。结果:既可以实时监控整体视频播放质量;通过实时机器学习算法也可以对视频内容进行管控,提高了视频播放质量,打击了视频违法行为。 代表客户: 宝宝树、公共安全部门。
实时采集✅ 数据存储✅ 数据分发✅
icon阿里云DataHub典型场景-IOT行业icon
数据融合架构
挑战:物联网能让所有具备独立功能的普通物体实现互联互通的网络。整个行业面临数据实时化需求多、数据类型多(半结构/非结构化)、智能化需求多的问题。 解法:利用数据总线DataHub和阿里云物联网平台可以实现对多网络、多协议设备的接入,同时配合实时计算引擎Flink构建实时智能分析系统。同时配合离线数据分析模型,实时调整模型参数。 结果:Datahub将物联网数据与大数据系统有机结合,桥接连同,利用Flink自带的多种API和实时机器学习系统对IOT数据分析处理,反哺业务,每年节省了近千万成本。 代表客户: 协鑫光伏、上海碳索。
实时采集✅ 数据存储✅ 数据分发✅
icon阿里云DataHub典型场景-互联网icon
数据分析架构
挑战:对互联网公司而言,广告依然是目前主流的变现方式。广告的本质是在卖流量,所以这是一个实时决策、在线转化的过程,离线数据T+1的计算已经不满足业务需求,整个行业需要实时转型。 解法:利用数据总线DataHub收集不同终端的用户信息,如移动端、PC端、其他三方平台等。将数据汇总到DataHub后配合实时计算引擎Flink进行广告的实时侦测,例如是否有失效链接、流量作弊行为。 结果:DataHub帮助用户稳定采集不同平台数据统一计算,避免数据孤岛,在实时场景下引导客户快速做出业务反应,既能避免无谓的流量损失,也可以提供广告的曝光度。代表客户: 虎扑。
实时采集✅ 数据分发✅
产品推荐 查看更多>>