阿里云数据总线DataHub_数据采集存储投递_实时数据仓库

立即咨询

立即试用

商务合作

阿里云数据总线DataHub

数据总线(DataHub)服务是阿里云提供的流式数据(Streaming Data)服务，它提供流式数据的发布(Publish)和订阅(Subscribe)的功能，让您可以轻松构建基于流式数据的分析和应用。

立即咨询

数据总线DataHub-阿里云自研数据总线 icon

提供对流式数据的采集、存储、分发功能。用户可以基于DataHub轻松构建基于流式数据的分析和应用。【数据采集】：提供SDK、插件、兼容Kafka Producer协议，帮助您采集各类业务数据。【数据存储】：采用存储计算分离架构，计算避免数据热点，存储使用自研盘古系统，具备高安全、多副。本、强稳定的特点，SLA达99.99%【数据投递】：支持涵盖几乎所有阿里云计算引擎，系统无缝对接，连接性好。

产品技术架构

负责用户的接入，同时会对Data进行格式化，然后传给Xstream。与pangu的存储集群交互，读写数据, 同时有Metric采集，资源回收等模块。负责将DataHub中的数据同步到其他产品，处理订阅的创建删除，协同消费以及订阅点位的保存和获取。所有模块均运行在Fuxi集群中，以Fuxi Service形式进行管理。系统采用存储计算分离架构，数据均存储与Pangu集群中，不依赖本地磁盘。

产品优势

高稳定
脱胎于阿里内部实时传输系统，支持历年双十一，久经考验，稳定可靠

高可用
服务可用性不低于99.9%。规模自动扩展，不影响对外服务；数据持久性不低于99.999%。数据自动多重冗余备份。

高吞吐
最高支持单主题(Topic)每日T级别的数据量写入，每个分片(Shard)支持最高每日百GB级别的写入量。每个主题(Topic)的数据流吞吐能力可以动态扩展和减少，最高可达到每主题25万RPS 的吞吐量。

高安全
提供企业级多层次安全防护，多用户资源隔离机制；提供多种鉴权和授权机制及白名单、主子账号功能。

数据总线DataHub—数据采集 icon

数据采集：提供多种SDK、API和第三方插件以及Kafka协议，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，进行统一管理，消除数据孤岛。

功能详述

日志文件：Logstash插件、Flume插件，数据库日志：数据集成 *、DTS *、Canal插件，支持对接OGG、Fluentd，在线消息/应用文件/IOT数据：SDK(Java\C++\Go\Python)，用户/ISV生态：DataHub兼容Kafka协议（Kafka版本0.10.0 -> 2.4.0），用户可以利用Kafka原生API将数据直接采集投递。

客户案例

客户名称：国家电网，客户场景：使用DataHub的OGG插件，将数据从线下自建Oracle数据库同步到数据总线DataHub中，打通了用户IDC和阿里云系统间的数据通道，让大数据可以服务传统企业实时化转型。客户价值：利用数据总线DataHub完成数据的统一采集，避免使用和维护多套采集系统，轻松构建大数据平台。

数据总线DataHub-数据存储 icon

数据存储：灵活设置存储时间，保证下游系统可重新消费数据，自身自动提供数据多备份和存储加密，具备跨机房容灾功能，安全可靠。

功能详述

存储层次：1）Project：项目空间，往往归属于某个业务项目或者团队。2）Topic：主题，对应业务上的一张表，分为Blob和Tuple两个类型。 Blob类型：仅支持写入一块二进制数据。 Tuple类型：支持类似于数据库的记录的数据，每条记录包含多个列。3）Shard：数据进入管道，为Topic动态扩缩容，Shard数决定数据进入Topic的最大流量。存储方式：基于阿里云自研分布式文件系统盘古，多副本备份，保证用户数据安全。

客户案例

客户名称：虎扑，客户场景：利用实时计算Flink和DataHub搭建实时数仓系统，将DataHub作为流式存储系统，每一个Topic对接数仓中的一张表。客户价值：利用DataHub存储计算分离的架构，避免热点数据的产生；DatatHub自身存储系统的多副本备份，异地容灾，传输加密功能也保证了用户存储数据的安全和稳定。

数据总线DataHub-数据投递 icon

数据投递：提供DataConnector模块，简单配置即可把接入的数据实时同步到下游系统（如MaxCompute、OSS、TableStore等主流系统）极大减轻了数据链路的工作量，实现一投多消。

功能详述

同步消息：支持将对应Topic中的数据实时/准实时的同步到第三方阿里云产品中，打通阿里云产品间的数据流通。如MaxCompute、Hologres、ADB、ElasticSearch、OSS、TableStore、RDS等。订阅消息：支持数据被下游实时计算引擎消费，提供断点续消费能力，如Flink、SparkStreaming等，同时支持协同消费功能，即支持多个消费者同时消费一个Topic。

客户案例

客户名称：众安保险，客户场景：使用DataHub下游对接多种阿里云计算引擎的优势，将数据投递Flink、ODPS、ES等多种计算引擎中。客户价值：DataHub与下游计算引擎结合更紧密，服务全托管，用户无需运维，更省成本。一份数据，多个团队共享，实现数据民主化。

最新特性

支持kafka的数据写入
完全兼容Kafka协议，可以当做kafka来用 *使用kafka方式消费Topic必须开启Shard水平扩展

支持OMS接入
datahub的计量信息，推送到oms

支持VPC权限控制
即单个datahub实例增加vpc绑定权限，仅有vpc内用户可以访问。支持绑定1个或多个vpc，支持解绑。

支持MaxCompute 2.0的最新类型
例如varchar、timestamp、复杂数据类型：Array、Map、Struct，等等

控制台改进
Topic详情界面增加当前总存储量/当前存储量等信息

多系统支持
Intel 系列

国产化：海光、飞腾、鲲鹏系列

支持不同类型集群混布

阿里云DataHub典型场景-金融行业 icon

实时风控架构

挑战：对金融行业而言，安全和稳定时第一要务，因此风控是其核心业务。例如交易欺诈，账号信用评估，均需要在实时的时间内做出判断，才能避免造成损失。传统风控系统需要从依赖专家规则到智能风控的实时化转变。解法：利用数据总线DataHub，将用户不同系统的数据投递风控模型和实时计算引擎Flink中，做出业务判断，再通过数据总线将消息发送到业务系统中完成整个流程。价值：利用数据总线DataHub丰富的SDK和采集插件，用户业务数据稳定采集传输到实时计算引擎中，进行实时风控分析，构建大数据时代实时风控系统。代表客户：浙江泰隆银行、广东顺德农村商业银行。

实时采集✅ 实时分发✅

阿里云DataHub典型场景-电商/物流行业 icon

实时数仓架构

挑战：数仓本质是把各种业务系统产生数据的通过一定的方式（数仓构建方法论）统一处理，从而产生更大的业务价值。随着业务向实时需求的转型，传统T+1的离线数仓已经无法满足业务需求。解法：利用数据总线DataHub和实时计算引擎Flink构建实时数仓系统，将数据分为：公共明细层(dwd)，公共汇总层(dws)，应用结果层（ads），使用Kappa架构构建整个体系。价值：满足业务对实时性的需求，做到了数据复用，减少重复计算与存储；同时使得业务指标口径统一，避免混乱；实时数仓清晰的架构也为日后业务的扩展提供了方便。代表客户：格格家、菜鸟物流。

实时采集✅ 数据存储✅

阿里云DataHub典型场景-在线教育/公共安全行业 icon

实时视频分析

挑战：互联网技术的快速发展，让视频和短视频行业快速崛起。一方面我们利用视频技术传播分享知识，要确保整个流程的稳定性；另一方面也要注意不法之徒利用视频流量从事非法活动，这对互联网视频行业提出了新的需求。解法：利用数据总线DataHub和实时计算引擎Flink构建实时视频分析系统，满足大数据量场景下数据的实时模型分析，对违规视频快速处理，同时将数据同步投递到离线计算中训练准实时模型给业务使用。结果：既可以实时监控整体视频播放质量；通过实时机器学习算法也可以对视频内容进行管控，提高了视频播放质量，打击了视频违法行为。代表客户：宝宝树、公共安全部门。

实时采集✅ 数据存储✅ 数据分发✅

阿里云DataHub典型场景-IOT行业 icon

数据融合架构

挑战：物联网能让所有具备独立功能的普通物体实现互联互通的网络。整个行业面临数据实时化需求多、数据类型多（半结构/非结构化）、智能化需求多的问题。解法：利用数据总线DataHub和阿里云物联网平台可以实现对多网络、多协议设备的接入，同时配合实时计算引擎Flink构建实时智能分析系统。同时配合离线数据分析模型，实时调整模型参数。结果：Datahub将物联网数据与大数据系统有机结合，桥接连同，利用Flink自带的多种API和实时机器学习系统对IOT数据分析处理，反哺业务，每年节省了近千万成本。代表客户：协鑫光伏、上海碳索。

实时采集✅ 数据存储✅ 数据分发✅

阿里云DataHub典型场景-互联网 icon

数据分析架构

挑战：对互联网公司而言，广告依然是目前主流的变现方式。广告的本质是在卖流量，所以这是一个实时决策、在线转化的过程，离线数据T+1的计算已经不满足业务需求，整个行业需要实时转型。解法：利用数据总线DataHub收集不同终端的用户信息，如移动端、PC端、其他三方平台等。将数据汇总到DataHub后配合实时计算引擎Flink进行广告的实时侦测，例如是否有失效链接、流量作弊行为。结果：DataHub帮助用户稳定采集不同平台数据统一计算，避免数据孤岛，在实时场景下引导客户快速做出业务反应，既能避免无谓的流量损失，也可以提供广告的曝光度。代表客户：虎扑。

实时采集✅ 数据分发✅