icon产品概述icon

数栖EMR(Elastic MapReduce,简称EMR)是数澜科技自研的一站式企业级大数据处理系统,完全兼容开源生态,为客户提供高性能、低成本、灵活易用的全栈大数据平台。依托开源的Apache Hadoop、Spark、 Hive、 Flink等技术,向客户提供高可靠、安全、易用的集群管理能力,还支持大规模集群的监控、告警、权限管理等功能。在数栖EMR上层,可采用数栖平台或者第三方大数据开发套件来进行数据研发工作。

icon产品介绍icon
基础设施

支持部署在私有物理服务器或者虚拟机上,也可以部署在各个云厂商的云服务器上,例如阿里云、阿里云、华为云、AWS等。

数据集成

提供数据接入到EMR集群的能力,包括Flume、Datax、Sqoop、Kafka、Debezium等,支持各种数据源导入数据到大数据集群中。

数据存储

支持结构化和非结构化数据在集群中的存储,例如分布式文件系统HDFS、对象存储Ozone。

数据计算

提供多种主流计算引擎,例如Hive、Spark、Flink、Phoenix、Kylin、Presto,还提供深度学习框架Tensorflow、Jupyter Notebook。支持自定义扩展其他服务。

认证权限

提供完善的认证机制和数据权限功能,已支持LDAP+Kerberos认证及Ranger组件。

集群管理

提供统一的运维管理平台,包括一键式部署集群能力,支持扩缩容、弹性伸缩。提供租户管理、机器管理、版本管理,以及对上述数据处理各层组件的运维,并提供监控、告警、配置等一站式运维能力。

icon产品特性icon
兼容Apache开源生态
组件均来自于Apache社区,保障开放性。紧跟社区发展,增加或者升级组件列表,例如已支持数据湖组件Apache Hudi和Iceberg。
部分特性增强
支持HDFS 文件配额管理,SparkSQL支持字段血缘解析(插件化)。集群参数智能调优,自动获取磁盘、CPU、内存配置来计算最佳集群参数。
部署运维性强
提供可视化的界面部署、运维、监控集群,降低运维部署成本。
国产化适配性强
已认证飞腾和鲲鹏CPU;已认证银河麒麟、中标麒麟、Openeuler、UOS等操作系统。
icon应用场景icon
流式数据处理
当前大数据应用日益增多,比如个性化推荐系统。但在实践之初受技术所限,可能要一分钟,一小时,甚至更久对用户进行推荐,这远远不能满足需求,我们需要更快的完成对数据的处理。
解决方案
数据中台企业服务器通过Kafka或者Flume等中间件将流数据提交到数栖EMR集群进行流式计算。 数据中台取得数据分析结果,再将结果数据存储到Hbase、MongoDB等存储层,供业务层的PC。
基于数据湖构建数据平台
随着企业数据规模快速膨胀,由于多种数据分析场景,如离线计算、实时计算、OLAP分析、机器学习等,传统的Lambda架构和Kappa架构都存在较多问题,例如Lambda架构需要维护两套代码、Kappa架构仍需要在多计算引擎间频繁的移动数据,难以保障数据的一致性,且成本较高。
解决方案
数据中台数栖EMR采用Iceberg+HDFS的数据湖方案,可以把数据库、消息、文档等数据快速入湖,然后基于此数据湖用Spark/Hive、Flink、Presto分别进行批处理、流处理和在线分析。 数据中台实现存储层的流批统一、中间层支持OLAP分析以及高效回溯,极大降低存储成本。
icon应用场景-批量数据处理icon

利用数栖EMR中的Hadoop、Hive、Spark等服务和底层数据存储方案,可以完成用户海量数据的批处理任务,实现数据分析、生成商业报表等业务需求。

icon组件介绍icon
 
已支持Apache社区常用的组件,例如HDFS、Yarn、Hive、Flink、Presto等。
并集成Tensorflow、Notebook等组件。
支持数据湖组件Apache Iceberg和Apache Hudi。
icon产品功能介绍(一)icon
icon产品功能介绍(二)icon
icon产品功能介绍(三)icon
icon特新介绍一: 设置HDFS 配额icon
icon特新介绍二: SparkSQL字段血缘icon

Spark安装包中内置血缘解析插件,可解析出字段级别的血缘关系。

icon国产化认证证书icon
icon私有化案例: 水业集团智慧水务icon
长沙水业集团: 构建智慧水务系统
【痛点】 数据孤岛现象严重,共有多个服务商的34个业务系统;数据质量差,系统间的业务边界和字段取值未加限制,导致部分字段空值和异常值;缺乏建设数据中台的体系化工具;
【方案】 搭建大数据平台,进行数据盘点、治理及标准化,提升数据质量;全面建设长沙水业集团数据中心,满足领导决策和各业务部门数据共享需求。
【业务效果】 建成大数据应用分析平台,进行“运营报表与智能报表”、“营销客服”以及“生产运营”三个应用场景的深度挖掘和分析应用。面向企业各个业务板块的整体运行的关键信息实施大屏应用展示和管理驾驶舱,便于企业领导层进行运营管理决策。
icon私有化案例: 集团型数据中台icon
浙江省交通投资集团:构建集团型数据中台
【痛点】 缺少大数据存储计算平台;缺少大数据开发套件及数据资产建设;缺乏建设数据中台的体系化工具。
【方案】 提供数栖平台+数栖EMR 整套解决方案,解决大数据的存储、计算、开发、服务、资产管理等问题,能一体化帮助客户搭建大数据实验室进行数据中台的建设和业务探索。
【业务效果】 大数据技术团队与数澜技术团队共同成立交通大数据联合实验室,作为后续对整个交投集团大数据平台培训、人员赋能及行业应用科研验证的主体。
icon数栖云案例: 企业数据中台icon
重庆普健药业: 构建企业内部数据中台
【痛点】 客户大数据能力方面较弱,计算和存储都没有; 希望能实现数据汇聚、治理、标签设计;
【方案】 采用数栖云基础版+数栖EMR 的组合方案,基于混合云模式。
【业务效果】 帮助企业初步构建数据中台,加快数字化转型。
产品推荐 查看更多>>
    高德云图选点通

    高德云图选点通,基于海量客流、地理大数据,结合GIS地理信息技术,为品牌方提供商圈洞察、点位评估、模型构建、门店管理等一系列服务。自定义选址模型,大数据全市跑分,推荐最佳选址地块。利用人地大数据构建智能模型,实现科学规划,智能管理地面网络。

    商圈洞察

    点位评估

    模型构建

    门店管理

    帷幄开播Whale Cast

    Whale Cast 是一个直播 & 短视频数据分析平台,用数据链接直播的「人」、「货」、「场」。运用帷幄特有的「情绪」算法,对直播过程中的数据进行分析,贯穿直播前、中、后全生命周期,为视频内容与直播间运营提供结构化解析、可视化分析,以算法挖掘直播最佳实践。

    短视频智能生产

    商家脚本编写辅助

    直播间问答提示

    直播间多维复盘

    阿里云 Quick BI数据可视化分析平台

    Quick BI数据可视化分析平台(中国唯一入选Gartner ABI魔力象限BI)是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,无缝对接各类云上数据库和自建数据库,大幅提升数据分析和报表开发效率,0代码鼠标拖拽式操作交互,让业务人员也能轻松实现海量数据可视化分析。

    强大的Quick数据引擎

    快速搭建数据门户

    智能数据分析和交互

    安全管控数据权限