阿里云Databricks数据洞察_Spark全托管数据分析平台

阿里云Databricks数据洞察

Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可同时满足数据分析师、数据开发工程师和数据科学家的分析需求，实现协同合作和数据共享。满足用户在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。

立即咨询

阿里云Databricks数据洞察 icon

阿里云Databricks数据洞察

Databricks数据洞察（简称DDI）是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime，并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务，您无需关心集群服务，只需专注在Spark作业的开发上。DDI提供的DataInsight Notebook，可以使数据工程师、数据分析师和数据科学家共享集群计算资源、协同工作。

产品优势

极致性能

Databricks Runtime内核，性能明显优于社区版Spark，最高可达50倍提升。满足高性能、高稳定性、可弹性的计算需求。

批流一体

Databricks Delta Lake为数据湖分析提供了ACID事务能力，轻松处理包含数十亿文件的PB级表的元数据信息，实现了批流一体的数据处理方式。

协同分析

同时满足数据科学家、数据工程师以及业务分析师的计算需求，提供交互式的协同分析工作平台。

数据共享

计算存储分离，减少数据冗余，实现多引擎间的数据共享，降低数据存储成本，内置对OSS的访问性能优化。

功能特性

Databricks数据洞察包含了完整的社区版Spark的功能和特性，全面兼容Apache Spark。 Databricks数据洞察包含以下组件：

Spark SQL和DataFrames

Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合，概念上与关系型数据库的表近似，也可以看做是R或Python中的data frame。

Spark Streaming

实时数据处理和分析，可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。

MLlib

可扩展的机器学习库，包含了许多常用的算法和工具包。

GraphX

Spark用于图和图并行计算的API。

Spark Core API

支持R、SQL、Python、Scala、Java等多种语言。

产品架构

Databricks数据洞察构建在ECS之上，使用阿里云对象存储服务（OSS）为核心存储。本文介绍Databricks数据洞察的产品架构。存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。目前，Databricks数据洞察提供了两种执行Spark作业的方式，包括通过Notebook或者在项目空间里新建Spark作业。同时，Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能，方便您对集群资源进行管理。

产品功能

全托管分析平台

快速拉起Spark全托管的集群，操作简单，按需付费。集群规模：用户根据需求设置节点数量，支持集群高可用。机型选择：支持ECS通用型、计算型和内存型三种实例规格族。弹性能力：集群规模可动态扩展，调整计算资源大小，达到成本最优。

交互式协同工作

多种用户角色共享数据，交互式协同合作。 Notebook：可以协同工作的工作空间，交互式的作业执行方式，支持Spark、PySpark、Spark R和Spark SQL类型的作业，分析结果可视化展示。统一元数据：集群之间共享数据库、表的元信息，无需重复创建。

完全兼容Spark生态

100%兼容开源Spark，迁移成本低，性能表现优异。 Databricks Runtime：在Apache Spark基础上做了大量的性能优化，且针对阿里云OSS做了I/O优化，提供了更快速、更高效的计算引擎。Databricks Delta Lake：较开源Delta Lake，功能更完备，对核心功能点均有更深度的优化和性能提升。

企业安全性

与阿里云RAM集成，可以根据用户和角色做权限控制，保障数据安全性。

应用场景—流批一体数据仓库 icon

统一的大数据管理平台，从上游数据抽取到下游数据分析，贯穿整个数据分析工作流。自动扩缩容，免运维，降低运维成本。