博云先进算力管理引擎ACE_国产高性能计算平台_算力调度系统

立即咨询

立即试用

商务合作

博云先进算力管理引擎ACE

博云先进算力管理引擎ACE是基于自研的算力卡管理技术，提升算力卡利用率，提供丰富的监控运维手段，以及多种任务调度策略帮助用户建立算力资源池，为AI模型训练推理、仿真、渲染、生信分析、数值计算等场景提供完善的算力管理能力。

立即咨询

先进算力引擎ACE

面向大规模深度学习和智能计算的算力引擎

ACE是基于自研的算力卡管理技术，提升算力卡利用率，提供丰富的监控运维手段，以及多种任务调度策略帮助用户建立算力资源池，为AI模型训练推理、仿真、渲染、生信分析、数值计算等场景提供完善的算力管理能力。
ACE支持多种异构GPU资源，开发者可以根据需要灵活选择卡资源、CPU类型的组合，以达到最优性价比、信创兼容等多方面的目标。

专为人工智能打造的算力引擎产品ACE icon

异构GPU池化

· 英伟达GPU全系兼容
· 国产GPU统一管理
· GPU性能监控
· 算力虚拟化强隔离
· 支持虚拟化场景。

算力网络加速

· 支持最1.6TB/s带宽
· 网络流量全面加速
· 网络流量隔离
· 网卡故障自愈。

海量资源调度

· 最高支持5000节点
· CPU/GPU/NPU统-调度
· 超过100+调度插件
· Linux/Windows混合调度
· 离在线业务混部署。

智能存储感知

· 兼容NAS、分布式存储等；
· 兼容对象存储能力；
· 自动感知，加速数据读写。

国产GPU支持

可视化监控看板

博云GPU虚拟化及池化方案优势 icon

拓扑分配

提供基于 GPU 拓扑分配功能当申请超过1张 GPU 卡时，自动选择拓扑连接最快的方式分配 GPU 设备。

GPU共享

允许用户提交小于1张卡资源的任务，并提供 QoS 保证。

支持K8s

原生支持K8S计算环境，实现
资源统一管理和调度。

容器环境

通过容器镜像封装计算环境，实现快速分发和迁移。

性能高

在底层对 GPU 设备进行操作，高效收敛吞吐接近0损耗。

覆盖广

支持主流GPU架构。如 V100、T4A100、A10。

兼容好

业务无改变、CUDA 库不替换、业务没感觉。

ACE算力引擎方案优势 icon

01、算力资源池化

对CPU、GPU等算力资源进行池化整合，实现资源的集中调度、按需分配，使资源可被充分利用，降低碎片概率，提高总体有效算力、降低智算中心购置成本。

02、算力资源精细化管理

根据 AI 任务的资源需求进行按需供给,契合多样化业务的差异需求。

03、智算任务队列化管理

算力调度技术可提供智算任务排队的能力可根据训练任务的重要程度，设置资源使用的优先级。

04、资源无感动态伸缩

可通过资源动态分配，为训练任务动态分配可用资源，实现资源动态扩展。

05、算力资源可观测

监控GPU 服务器的运行状况、利用率、处理能力、计算效率，为加速大模型训推任务提供可视化参考依据。

06、适配异构算力

支持英伟达、昇腾系列、曙光DCU系列、天数智芯等多款算力卡。支持整卡、虚拟化等多种使用方式。

07、简单好用的任务管理能力

支持引导式K8S任务下发能力，支持配置中心、服务暴露、服务质量监控等。

08、AI算力集群管理

提供最新版本的K8S集群管理能力，包括创建、扩容、缩容、删除等。支持Kubectl命令行接入，方便运维人员排错。

09、灵活的配额分配方式

管理员可以灵活的设置用户配额，包括整机分配、卡分配等多种形态。

某大学深度学习模型容器化项目 icon

大气科学为特色的全国重点大学，国家“双一流”建设高校。
存在问题：
气象部门数据管理存在信息资源碎片化、业务应用条块化、各级系统割裂化等问题，气象数据管理由下至上，实际业务运行时，区和市对系统不熟悉，使用门槛高、限制多。
资源浪费严重：
依赖人工定期查看，计算分散且监管繁琐，造成资源空闲和无效排队等问题，造成资源浪费。
作业效率低下：

环境复杂算法难以快速部署和实时观测，致使运维十分困难。多种框架环境下准备调试困难。
依赖手工操作:
管理依靠命令行查看，多服务器需要多次登陆重复且繁琐且难以掌握全局使用情况。

解决方案：
以容器云为底座、AI应用支撑平台调度深度学习框架和作业。
· 方案有效整合气象业务网和国省集约化资源池等不同设备资源实现整体调度，较少资源浪费。
· 实现了卫星数据处理及相关模型运行，时序数据、雷达回波外推等气象模型实现容器化。
· 针对深度学习模型快速部罢，操作便捷，降低使用门槛和维护成本，实现气象的管理一体化、数据资产化、决策智能化。

某科研单位开发测试场景 icon

项目背景
· 该单位有众多科研方向需要使用GPU资源进行训练。
· 业务人员众多，但GPU数量有限，需排队等待释放GPU。
· 申请GPU成功后，有接近一半的时间GPU处于空闲未使用状态。
· 整体GPU利用率平均为15%左右。
项目背景
· 对GPU卡进行超分设置，允许多个用户同时使用一张GPU卡，有效减少了作业排队现象且GPU平均利用率达到60%。
· GPU卡申请到业务作业提交线上化，无需人工介入，作业自动排队并提交，显著减少了作业等待时间。
· 动态调配GPU资源。白天将多数显卡分配给业务人员调试使用，晚间则执行大规模训练任务，显著提升了GPU资源利用率。

某高校高性能和AI算法支撑平台 icon

项目简介
· 平台主要面向研发及训练对于计算环境及资源的多样化需求开展建设，支撑了近80名师生的科研工作。
· 科研人员在唯一计算环境中完成“研发、调试、训练”的全过程，无需在多个页面切换，更加贴合使用习惯，提升科研效率。
· 在大规模训练时，科研人员可以在容器中按需提交slurm任务k8s任务，不需要用户登录到管理节点提交任务；
· 简化用户操作，减少安全隐患。

核心方案：基于Kubernetes和Slurm的混合调度

项目价值：
提升资源时空利用率
· 用户工作量和任务等待时间减少30%+
· 实现隔离不同应用的CPU、内存、网络、存储、进程等能力，保障作业相互不影响。
· 提供多租户共享底层物理资源，租户可以自由选择隔离或者打通自有的应用。
提升应用开发效率
· 实现开发环境标准化构建，部署过程平台自动化完成。

· 应用镜像让科研人员免去重复安装环境依赖。

操作简便运维可视
· 有效降低调度平台用户使用门槛，有效增强业务调度能力，实现资源利用率的提升。
· 可视化监控作业状态。