icon新一代分布式存储核心关键词icon

云海是京东全自研新一代分布式存储产品,兼顾集中式存储的稳定性和分布式存储高性能高扩展的优势。新一代分布式存储性能是Ceph商业化版本的5倍,成本是集中式存储的1/2。

高性能
低延迟 RDMA及高性能存储引擎,使分布式存储的性能接近本地NVMe磁盘,释放了存算分离的可能性。通过技术手段优化长尾时延,百万IOPS 时,时延低于200us,延迟指标优于多数竞品。
可用性
传统分布式存储,故障时有选举延迟,扩容时复制组数据迁移,局部数据热点,都会导致IO明显抖动,体现出性能不稳定。云海采用无Leader、无复制组机制、多副本皆可读,保障系统连续性。
低成本
全面使用QLC存储介质,厂商认证为国内最大规模应用QLC SSD的云厂商;EC低冗余副本支持从1.5-1.14 副本的存储方式,且在 EC 数据修复速度上优势明显。
信创技术
京东全自研产品,非基于开源产品改造,具有完全自主知识产权,支持各类信创体系架构,满足严格的信创要求。
icon云原生存储的应用痛点和需求icon

存储性能、稳定性、可用性、可靠性、单位成本等关键因素需要寻找平衡,故障恢复过程缓慢,恢复涉及大量数据拷贝,影响业务连续性。资源负载不均衡,容易产生热点问题,忙的忙死,闲的闲死。资源分配粒度过大,沉默成本高,对IT投入不友好。弹性资源可持续交付,秒级扩缩容,有效应对业务波峰波谷。计算存储解耦,各自按需使用,降低成本。有效解决资源孤岛,共享模式,突破单机资源瓶颈。

icon传统分布式存储面临的挑战icon
高并发同时又要求低延迟
生产级应用,数据库或中间件,延迟需100us量级,长尾延迟不超过1s, SLA需提升到 99.999,替换传统集中存储才可行;必须要做到低延迟高并发才能实现真正的存算分离。
应用场景不允许IO抖动
高密机型故障修复时间长,需容忍修复期间叠加故障, IO卡顿控制到毫秒级;设备切换或设备故障,IO故障时间要求毫秒级。
高容错分布式一致性协议
强一致性, 2副本故障不影响可用性;无Leader非仲裁协议,不接受leader选举;协议层和数据持久化层分离,协议不受IO干扰;IO层感知主动切换,不经过控制面,显著缩短切换时间。
压榨硬件的极限价值,降本增效
用低成本硬件压榨硬件极限性能,QLC SSD优化、HDD磁盘优化、CPU优化、调度优化、日志优化、读写放大优化、IO链路优化、数据膨胀率优化。
icon新一代分布式存储产品全景 - 云海icon

新一代全自研分布式存储云海,借助超低延迟RDMA网络、用户态NVMe、SPDK全新存储架构,提供高性能、低成本、高可用的一体化存储方案,支持容器CSI、虚拟化、信创,全面兼容k8s、openstack和主流云厂商,助力客户业务全面上云。

icon运维管控icon
icon高性能icon
网络栈优化
RDMA内核旁路,远端内存直接高速访问技术,支持IB/RoCE/iSER
存储栈优化
SPDK/UFS全用户态,数据自动分层,可变EC深度,保障性能最优
并行优化
全程无锁IO路径,条带并行读写,向量化处理,数据校验算法硬件级优化
中断优化
全Polling模式,降低软件自身损耗,延迟大幅降低,提升单位硬件IO产出
缓存优化
数据自动预读、数据冷热分离、IO Merge,大幅提升IOPS和读写延迟能力
icon高性能icon
三栈合一超低时延网络
① RDMA+存储 的成熟工程实践:包分拆 + 流控 + 数据零拷贝。网络传输部分的延迟由 400us 降低到 26us ② RDMA / DPDK / 传统 TCP 三种技术栈合一,兼容不同的 IDC 环境(高性能场景推荐使用 RDMA)
下一代数据追加写架构
① 传统分布式存储的数据一致性机制下,采用 写日志 + 写数据盘 的机制写入数据,两次落盘写放大;数据链路长,且日志盘会成为性能瓶颈 ② 云海存储,采用下一代数据一致性架构,采用全追加写模型,摈弃日志机制,数据一次落盘;无日志盘,无对应性能瓶颈 ③ 追加写架构,碎片度更低,可整块檫除,对SSD的垃圾回收更友好,有效延长使用寿命,并提升性能。
icon高性能icon
高性能、低损耗的编程模型
① 云海存储,全数据路径采用 全异步 + 非阻塞 + 无锁 + 零拷贝 全面的编程模型,最大限度利用硬件资源,性能损耗降到最小 ② 使用ISA-L存储加速库,底层函数使用汇编语言编写,使用CPU的高效SIMD指令和AES-NI扩展指令集,加速存储算法的计算过程,比如CRC校验码、EC纠删码等。
数据路径全用户态加速
① 云海存储,采用SPDK全用户态数据落盘机制,无内核组件的额外开销(内核文件系统开销,内核块设备驱动开销)。 ② SPDK用户态驱动,专门针对高速NVMe SSD设备,保证了NVMe盘高并发下的低延时。 ③ 使用HugePage分配大页,提升TLB缓存命中率,提高虚拟地址和物理地址的转换性能。
icon高性能icon
客户端DPC多对多访问方式
① 单客户端连接一个存储节点(NFS、CIFS、ISCSI),演变为单客户端连接多个存储节点(CFS、CBD)。② 传统TCP的网络访问方式,演变为高性能内核旁路的RDMA网络访问。③ 集中式网关模式,容易成为性能瓶颈,演变为分布式去中心模式。
客户端集群本地文件系统
① 多个本地文件系统组成文件系统集群,更高效的元数据管理效率。② 提供标准的POSIX语义,支持文件级的读写锁控制。③ 数据共享,多客户端读写一致性机制,支持快速切换、实例快照等高级特性。
icon低成本icon
icon低成本icon
数据模型与 QLC-SSD 规模化使用
① QLC-SSD 硬件成本较传统 TLC-SSD 价格低 15%,但在随机写性能/随机写寿命上严重不足
② 云海存储的数据追加写模型,有效避免 QLC-SSD 的不足,整体性能/寿命大幅提升,兼顾了成本与性能收益
③ Intel(现海力士)官方认证京东云是国内最大规模使用QLC-SSD 的厂商
三副本 + EC,兼顾性能与成本
① 三副本+EC 的混合模式,根据实时感知的数据热度进行自动冷热数据分层;兼顾性能与成本上的收益
② 根据集群规模,EC 推荐 4+2 / 8+3 / 10+3 / 28+4 等规格,客户也可以配置其它任意 N+M 配置
③EC条带深度可变长,有效降低写放大,小于EC满条带的小IO要补充垃圾数据。
icon高可用icon
高容错分布式一致性协议
① 云海高容错分布式协议,数据可写在任意磁盘上,只要集群中存在3个可用磁盘即可保障服务可用性 ② 数据三副本强一致写入,且不会因故障降级为两副本写入 保障数据的可靠性 ③ 无Leader非仲裁协议,故障时无选举时间 ④ 协议层和数据持久化层分离,协议不受IO干扰 ⑤ IO层感知主动切换,显著缩短业务影响时间
客户收益
① 出现2副本故障时不影响系统可用性 ② 故障条件下,业务卡顿从20秒+降低到秒级 ③ 相对开源存储方案,有磁盘级别的 QoS 管理能力,大数据量瞬时写入时能更好的将写入数据根据磁盘的瞬时负载分配到每块磁盘,确保所有磁盘都能达到最佳性能
icon信创技术icon
icon客户收益icon
两个统一
统一引擎
统一数据
高资源利用率
存储资源利用率
提升3倍+
降本增效
基础设施成本降低
30~50%
低读写延迟
数据读写延迟降低至100μs,单盘提供100万级IOPS,单盘带宽达4000MB/s
低冗余副本
最高1.14数据低冗余副本
多场景定制使用业务
降本增效
icon交付形态icon

云海产品优先建议以 x86/信创 一体机模式交付,为客户交付开箱即用的产品。一体机模式下,云海预装在京造服务器上,按需求容量部署交付到客户机房。云海存储一体机经过完善的线下规格验证,可以为客户提供最佳的性能/稳定性体验。

 
有部分客户更倾向于采购存储软件授权。一类是服务器硬件采购有较强的准入限制;另一类是因为有服务器利旧的诉求。
对于该类需求,云海提供纯软件授权的方式。云海对存储机型有最佳推荐配置,但常见存储机型都可以适配。
客户自己准备存储服务器,按云海推荐的故障域隔离方案部署,并在服务器上部署云海软件后即可提供服务。
icon分布式存储架构痛点icon
性能问题

本地NVMe 磁盘读写延迟在100us 左右,单盘随机读写 IOPS在 20万;传统分布式存储的性能与本地NVMe 磁盘相差太多,存算分离后业务可能会有很大性能损耗(最差场景下降低50%~75%)。云海基于低延迟RDMA网络及软件架构优化,IO 性能接近本地盘,更适合存算分离场景。

抖动问题

传统类 Ceph 机制的存储,故障时有选举延迟,扩容时需要做复制组数据迁移。以上机制均会导致 IO 明显抖动;如果局部数据有读写热点也会体现出性能不稳定。云海存储,采用无Leader、无复制组机制;多副本皆可读,也不会有局部数据写热点问题。

可用性/可靠性问题

短时间发生多重(2副本)磁盘故障时,传统分布式存储有可用性问题,且有丢数据的可能。云海存储在短时间2副本故障条件下,也能保持系统可用性,故障自愈过程中,可保证在新的预分配副本集上依然写入3副本。

icon基于追加写的统一引擎机制icon

存储引擎设计差异,带来领先的技术产品

icon数据写机制icon
icon数据写机制 和传统高性能分布式存储厂商的读写性能数据对比icon
icon数据写机制icon
icon数据读机制icon
icon磁盘分配机制 传统存储方案icon

使用预分配复制组的方式分配磁盘,集群内增加服务器扩容,必须做数据迁移再平衡,会引发集群抖动,数据以伪随机算法投入复制组内,会造成不同组内数据量不同,磁盘利用率有高有低。

icon磁盘分配机制 云海存储方案icon

根据磁盘负载、磁盘水位、健康状态分配 IO,有均衡的磁盘利用率。集群内增加服务器扩容,新数据直接写到新磁盘上即可,不强制数据迁移再平衡。

icon磁盘故障处理icon

如果是 副本 Leader 发生故障,需要选举新的 Leader,该过程有 10~20 秒左右,敏感业务会受影响。如果原副本 Leader 发生故障,意味着三副本中损失掉一份完整数据,有概率只剩余一份完整数据,丢数据风险。传统存储方案中,日志盘故障等同于整机故障,数据需要全部迁移。增加了故障点,降低了可用性/可靠性。如果2副本同时故障,则数据不可写(写不可用)。

icon磁盘故障处理icon
icon热迁移和热变配icon

热迁移:如果运行中线上巡检系统监控到局部(业务IO聚集,主副本堆积)过热,通过热迁移手段,无缝将用户迁移到另一个正常资源池上。过程中用户读写基本无感知。热变配:如有必要,可以无缝将用户从低配资源临时迁移到高配资源上。

icon延迟读Lazyreadicon
应用场景
利用快照批量创建块设备场景,提高块设备恢复或者创建效率,同时还可以提高启动效率以及降低网络流量压力。
方案特性
传统方式:从OSS中一次性拉取快照到新创建的块设备中,拉取的快照除了需要的快照还包含了其他快照,同时还需要做快照校验,在批量创建块设备场景下效率较低。Lazyread技术:批量创建块设备时,是通过快照缓存从OSS中读取需要的快照(同时后台复制到块设备),可实现块设备的批量恢复/创建,后续是从块设备直接读写数据。
icon可靠性和可用性icon
icon云原生存储的场景实践icon
icon云原生数据库场景实践icon
存算分离对存储能力的需求:高性能,对于TP类数据库需要百微妙级时延的分布式存储。容灾备份功能,存储提供快照、clone功能,实现秒级备份、恢复,跨机房、可用区的灾备。数据库场景收益:1、服务器节省:计算资源:3副本(计算和存储绑定)->2副本。存储资源:3副本(每实例单副本、物理使用率 30%~40%)-> 1.8副本(共享块存储单份数据,物理使用率 80%)。2、数据库秒级备份功能:借助云海的快照能力,轻松秒级完成数据库的快速备份、恢复的关键功能。OLAP场景收益: 1、服务器节省:计算资源:利用率(提升30%)。存储资源:2副本(每实例单副本、物。理使用率 30%)-> 1.8副本(共享文件存储单份数据,物理使用率 80%)。2、存算分离后的极致弹缩:云海保障了数据的共享、安全、可靠,按需横向扩展的性能和容量,赋能OLAP的计算资源按需精确扩容实现极致降本,且可支持临时流量洪峰后释放资源,做到资源按需使用。
icon云原生大数据场景实践icon
icon并行文件方案 VS 传统HDFS方案icon
icon并行文件方案优势icon

有别于传统HDFS方案,并行文件方案通过低延迟RDMA网络、用户态NVMe、SPDK全新存储架构等能力和手段,以满足用户对数据高性能、低成本、高可用的需求。

iconhadoop上云之轻量化方案icon

基于对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统,提供海量数据的分析和挖掘能力。

iconhadoop上云之分层命名空间icon

层级 Namespace 主要是维护文件系统的文件属性、目录树结构等元数据信息,同时支持目录树及文件操作,如:文件 / 目录创建、查找(Lookup/Getattr)删除及重命名(Rename)等。

基于单机架构

把所有目录树单机全内存,可做到低延迟,但是无法横向扩展,最大规模仅支持 5-10 亿文件数。代表产品为 HDFS。

基于子树划分

通过将层级目录树拆分成多个子树,并将每颗子树按照相应的负载策略部署到不同的 Meta 节点中;缺点是容易产生热点,负载均衡难以实现,扩展性不够好,同时难以做到跨子树的Rename。典型的实现如 HDFS Federation、 CephFS、IndexFS。

基于分布式KV数据库

上层维护了一层元数据语义层,该层将目录树操作转化为数据库事务请求。下层是分布式数据库,负责元数据的存储管理,目录树中的每个 inode 节点对应数据库中的一行记录。此方案可以做到单集群文件数规模无上限,这也是目前的技术趋势,典型的实现如Facebook Tectonic。

icon云原生弹性数仓收益icon
icon云原生AI训练场景实践icon
场景挑战:AI 场景下的数据访问特性主要表现在:海量小文件,由于训练任务需要的文件数量都在几亿到十几亿的量级,同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几 KB 到几 MB之间。读多写少,在大部分场景中,训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。
产品优势:基于云海,支持弹性可扩展的元数据管理系统,小文件规模可达千亿;受益于云海存储引擎的性能,目单文件集群实例吞吐量最大可达20GB/s,单客户端最大IOPS可达6万(nfsclient等限制)。目前京东集团所有关键训练业务都运行在云海上。产品高性能、灵活扩展的能力有力的支撑了业务增长带来的大容量和高性能的需求,并经历了多次 6.18 /11.11 大促考验。
iconAI训练场景实践icon
icon高性能图片、视频存储场景实践icon
核心场景
京东云对象存储服务基于京东集团十几年以来成熟稳定的底层架构,历经618及双11等大促考验。目前系统在京东内部已经承载了零售、科技、物流、广告、大数据等1200个以上部门的关键数据,为京东业务高速增长提供了坚实的保障。京东云对象存储作为京东商城存储基础设施,为商品主页视频、详情图片及视频、用户评论视频等提供海量、安全、低成本的存储服务。并应用跨区域容灾与备份,用户存储数据在对象存储的数据可以通过的跨区域复制功能实时同步其他地域,实现数据异地容灾,用户在应对极端灾难时,保证业务流畅,同时为重要数据加上多重保险。
icon商业化典型案例icon
icon助力某头部国股行存算分离分析型数据库业务icon

某头部国股行,是经国务院、中国人民银行批准成立的首批股份制商业银行之一, 近年与国家发展改革委等部门发起“数字化转型伙伴行动”倡议。根据中国人民银行发布《金融科技发展规划》,提出抓住科技浪潮发展新机遇,以人为本全面推进在金融领域深化应用。

客户价值
降本增效:存储资源利用率提升3倍,综合成本降低预计可达50%应对突发业务:可以有效应对业务高峰,资源快速响应。国产化兼容:整体国产化的架构,满足了用户国产合规的要求,并且兼容性很好。
项目背景
信创营销数据平台在降本增效基线下,采用存算分离架构设计,满足分析型数据库运行要求如下:计算:计算资源利用率明显提升,同时计算资源的可用性也得到了提升,特别是故障时,可以快速的选择新的计算资源,重新挂载存储资源即可快速上线。存储:提升存储的资源利用率。按照银行数字化转型要求,营销运营体系要“看起来”、“用起来”,保证营销运营能够支撑全行所有业务领域, “不重不漏”。
需求与痛点
存储使用率底,资源存在浪费:用户使用的是存算一体的架构,资源扩展需要同步,存在浪费。应对突发难度大:在开门红业务或突发的新业务上线时,需要补充大量计算资源,高峰过后计算存储资源闲置。统一架构国产化需求:用户需要建设统一营销数据平台,其中包含数据的大容量存储及存储硬件的国产化需求。
解决方案
采用云海分布式存储(鲲鹏)产品方案PB级存储支撑,进行“存算分离”建设。全闪架构,使用高性能极致体验,采用NVMe SSD,能为用户提供大容量存储和快速性能。网络采用双网口RDMA ROCE组网,提供高速的数据读写和快速的数据重平衡。保障用户的业务连续性和数据安全性。
icon助力某保险公司集中式存储升级替代,降本提效icon

某保险集团股份有限公司是综合性保险金融集团, 业务范围覆盖财产险、人身险、再保险、资产管理、不动产投资和另类投资、金融科技等领域,为客户提供个性化的保险方案。作为中国保险行业的领先企业,不断推出具有竞争力的产品、加强营销力度、提高服务质量,为客户提供全方位的保障。

客户价值
分布式存储架构:相对于传统SAN存储能够有效的提升空间利用率,数据安全性和稳定性,保护用户投资。资源池化:实现用户业务需求的随用随取,业务上线时间提升4倍。存储安全性高:分布式存储多副本与纠删码技术,实现了数据的安全性和经济性的有效结合。帮助用户降本增效。简运维:降低用户运维复杂度,使用效率提升,成本降低。
项目背景
某保险公司业务的高速发展情况下,在SAN存储使用过程中遇到了很多问题,业务风险越来越高,急需一种产品上线解决了用户使用SAN存储存在的诸多问题。考虑架构的扩展性的情况下,需要更高的可靠性、容错性和可维护性,并且性能得到了提升,延迟有降低。综合选型,需结合副本和纠删算法及通用的服务器硬件,提高了整体经济效益。
需求与痛点
用户SAN存储日益不能满足业务发展的需求,存储扩展差,影响正常的业务开展。稳定性差:SAN存储稳定性出现问题,硬件故障时发,导致业务中断。空间利用率低成本高:各子公司及多套业务系统使用多套存储,数据分散,空间利用率低,成本高。急需新型存储架构,为不同的业务系统提供数据存储服务;保障业务的连续性。
解决方案
云海分布式存储系统搭建存算分离的统一存储平台,实际计算和存储资源按需分配和资源共享。采用多节点分层存储方案,智能驱动数据激活和冷却。热数据存入到NVMeSSD构建的存储资源层,提供高速的数据读写功能。温冷数据存放在HDD构建的大容量存储资源层,提供更高的性价比。
icon助力某券商构建统一云原生存储架构体系icon

某券商具有多功能协调发展的金融业务体系。经营范围覆盖:证券经纪;证券投资咨询;与证券交易、证券投资活动有关的财务顾问;证券承销与保荐;证券自营;证券资产管理;融资融券;证券投资基金销售;为期货公司提供中间介绍业务;代销金融产品;证券投资基金托管。

 
客户价值
敏捷灵活:帮助用户构建超大规模数据湖,实现数据的存储与流动。满足了“小微化、高频化”的业务新模式,支撑证券业务系统频繁变更。多存储接口类型,与用户业务系统无缝链接。统一数据管理,结构化数据与非结构化数据统一存储。
项目背景
某券商进行系统架构升级,全面云原生化,涉及分布式存储的云服务。需新的存储架构提供多业务场景的存储服务,对接云原生场景。多种语义(HDFS / POSIX / S3)兼容;与主流计算引擎(Spark、Presto、Hive 等)无缝衔接;无限扩展的存储空间;较低运维成本;同时实现高性能和低成本两种场景支持。
需求与痛点
资源利用率低:用户大数据存算一体,扩展困难,资源浪费。无存储方案:用户的容器缺少持久化存储方案。在使用的NAS存储,存在性能不足,连接不稳定,故障难恢复等诸多问题。不灵活:架构不够灵活,难以适应“小微化、高频化”的业务新模式。希望业务系统能够快速上线,且适应快速变更。
解决方案
云海分布式存储搭建统一存储平台,实际计算和存储资源按需分配和资源共享。云海分布式存储集群支持多种语义(HDFS / POSIX / S3等)兼容;与主流计算引擎无缝衔接。满足低成本的存储需求,也满足高性能的需求。使用RDMA技术, 传输延迟会显著减小,起到低延时、低CPU开销、高带宽.在与Ceph的对比中,无论是协议支持,性能和稳定性,还是安装配置、运维管理特性,均有较大的优势,得到用户较高评价。
产品推荐 查看更多>>
    腾讯云分析型分布式数据库TDSQL-A

    TDSQL-A是腾讯云自主研发的分布式分析型数据库系统,有自研列式存储引擎,采用无共享的集群架构,支持高效的海量数据复杂 查询能力,具备高扩展性、高 SQL 兼容度、高压缩比等特性,同时具备完整的分布式事务支持能力,又支持多级容灾以及多维度资源隔离。

    自研列式存储

    高效复杂查询

    海量数据存储

    企业级数据安全

    分布式图数据库StellarDB

    StellarDB分布式图数据库是面向属性图(Property Graph)的综合性分布式图数据库,能够支撑千亿边规模的超大图,为业务人员提供存储、查询和分析图的能力,应用于公安、金融、社交网络等场景。

    高效稳定

    功能完备

    浪潮云_云数据库 RDS MySQL

    云数据库 RDS MySQL(Cloud Database RDS MySQL)是基于成熟云计算技术提供的高性能数据库服务,兼容MySQL协议,具有管理便捷、稳定可靠、数据安全,节约成本等优势。

    弹性伸缩

    性价比高