icon产品概述icon

数栖EMR(Elastic MapReduce,简称EMR)是数澜科技自研的一站式企业级大数据处理系统,完全兼容开源生态,为客户提供高性能、低成本、灵活易用的全栈大数据平台。依托开源的Apache Hadoop、Spark、 Hive、 Flink等技术,向客户提供高可靠、安全、易用的集群管理能力,还支持大规模集群的监控、告警、权限管理等功能。在数栖EMR上层,可采用数栖平台或者第三方大数据开发套件来进行数据研发工作。

icon产品介绍icon
基础设施

支持部署在私有物理服务器或者虚拟机上,也可以部署在各个云厂商的云服务器上,例如阿里云、阿里云、华为云、AWS等。

数据集成

提供数据接入到EMR集群的能力,包括Flume、Datax、Sqoop、Kafka、Debezium等,支持各种数据源导入数据到大数据集群中。

数据存储

支持结构化和非结构化数据在集群中的存储,例如分布式文件系统HDFS、对象存储Ozone。

数据计算

提供多种主流计算引擎,例如Hive、Spark、Flink、Phoenix、Kylin、Presto,还提供深度学习框架Tensorflow、Jupyter Notebook。支持自定义扩展其他服务。

认证权限

提供完善的认证机制和数据权限功能,已支持LDAP+Kerberos认证及Ranger组件。

集群管理

提供统一的运维管理平台,包括一键式部署集群能力,支持扩缩容、弹性伸缩。提供租户管理、机器管理、版本管理,以及对上述数据处理各层组件的运维,并提供监控、告警、配置等一站式运维能力。

icon产品特性icon
兼容Apache开源生态
组件均来自于Apache社区,保障开放性。紧跟社区发展,增加或者升级组件列表,例如已支持数据湖组件Apache Hudi和Iceberg。
部分特性增强
支持HDFS 文件配额管理,SparkSQL支持字段血缘解析(插件化)。集群参数智能调优,自动获取磁盘、CPU、内存配置来计算最佳集群参数。
部署运维性强
提供可视化的界面部署、运维、监控集群,降低运维部署成本。
国产化适配性强
已认证飞腾和鲲鹏CPU;已认证银河麒麟、中标麒麟、Openeuler、UOS等操作系统。
icon应用场景icon
流式数据处理
当前大数据应用日益增多,比如个性化推荐系统。但在实践之初受技术所限,可能要一分钟,一小时,甚至更久对用户进行推荐,这远远不能满足需求,我们需要更快的完成对数据的处理。
解决方案
数据中台企业服务器通过Kafka或者Flume等中间件将流数据提交到数栖EMR集群进行流式计算。 数据中台取得数据分析结果,再将结果数据存储到Hbase、MongoDB等存储层,供业务层的PC。
基于数据湖构建数据平台
随着企业数据规模快速膨胀,由于多种数据分析场景,如离线计算、实时计算、OLAP分析、机器学习等,传统的Lambda架构和Kappa架构都存在较多问题,例如Lambda架构需要维护两套代码、Kappa架构仍需要在多计算引擎间频繁的移动数据,难以保障数据的一致性,且成本较高。
解决方案
数据中台数栖EMR采用Iceberg+HDFS的数据湖方案,可以把数据库、消息、文档等数据快速入湖,然后基于此数据湖用Spark/Hive、Flink、Presto分别进行批处理、流处理和在线分析。 数据中台实现存储层的流批统一、中间层支持OLAP分析以及高效回溯,极大降低存储成本。
icon应用场景-批量数据处理icon

利用数栖EMR中的Hadoop、Hive、Spark等服务和底层数据存储方案,可以完成用户海量数据的批处理任务,实现数据分析、生成商业报表等业务需求。

icon组件介绍icon
 
已支持Apache社区常用的组件,例如HDFS、Yarn、Hive、Flink、Presto等。
并集成Tensorflow、Notebook等组件。
支持数据湖组件Apache Iceberg和Apache Hudi。
icon产品功能介绍(一)icon
icon产品功能介绍(二)icon
icon产品功能介绍(三)icon
icon特新介绍一: 设置HDFS 配额icon
icon特新介绍二: SparkSQL字段血缘icon

Spark安装包中内置血缘解析插件,可解析出字段级别的血缘关系。

icon国产化认证证书icon
icon私有化案例: 水业集团智慧水务icon
长沙水业集团: 构建智慧水务系统
【痛点】 数据孤岛现象严重,共有多个服务商的34个业务系统;数据质量差,系统间的业务边界和字段取值未加限制,导致部分字段空值和异常值;缺乏建设数据中台的体系化工具;
【方案】 搭建大数据平台,进行数据盘点、治理及标准化,提升数据质量;全面建设长沙水业集团数据中心,满足领导决策和各业务部门数据共享需求。
【业务效果】 建成大数据应用分析平台,进行“运营报表与智能报表”、“营销客服”以及“生产运营”三个应用场景的深度挖掘和分析应用。面向企业各个业务板块的整体运行的关键信息实施大屏应用展示和管理驾驶舱,便于企业领导层进行运营管理决策。
icon私有化案例: 集团型数据中台icon
浙江省交通投资集团:构建集团型数据中台
【痛点】 缺少大数据存储计算平台;缺少大数据开发套件及数据资产建设;缺乏建设数据中台的体系化工具。
【方案】 提供数栖平台+数栖EMR 整套解决方案,解决大数据的存储、计算、开发、服务、资产管理等问题,能一体化帮助客户搭建大数据实验室进行数据中台的建设和业务探索。
【业务效果】 大数据技术团队与数澜技术团队共同成立交通大数据联合实验室,作为后续对整个交投集团大数据平台培训、人员赋能及行业应用科研验证的主体。
icon数栖云案例: 企业数据中台icon
重庆普健药业: 构建企业内部数据中台
【痛点】 客户大数据能力方面较弱,计算和存储都没有; 希望能实现数据汇聚、治理、标签设计;
【方案】 采用数栖云基础版+数栖EMR 的组合方案,基于混合云模式。
【业务效果】 帮助企业初步构建数据中台,加快数字化转型。
产品推荐 查看更多>>
    腾讯云品牌数字化消费者运营方案

    腾讯云品牌数字化消费者运营方案,智能数据分析实现用户模型搭建、标签生产,深度用户洞察,辅助业务决策。在用户不同阶段设置运营计划、自动运行,提升用户活跃及品牌黏性。根据用户行为,精准发券促复购。抓住关键时机、精准营销,提升用户价值。

    智能数据分析实现用户模型搭建、标签生产

    自动运行,提升用户活跃及品牌黏性

    根据用户行为,精准发券促复购

    抓住关键时机、精准营销,提升用户价值

    DataHunter智能推荐服务方案

    DataHunter智能推荐服务方案,从不同的视角、维度进⾏分类和组织,⽅便管理者、使用者在不同业务场景对标签进⾏检索、探索。通过分类层级,明确标签分类后,需要细致地描述标签,统⼀刻画标签,以便标签生命周期中涉及到的各业务⻆色了解标签的定义。

    内置Python引擎

    支持机器学习算法

    具备模型训练能力

    API支持权限控制

    Tableau Server Management

    大规模管理Tableau Server。

    可管理性

    可扩展性

    优化工作负载