面向大规模深度学习和智能计算的算力引擎
ACE是基于自研的算力卡管理技术,提升算力卡利用率,提供丰富的监控运维手段,以及多种任务调度策略帮助用户建立算力资源池,为AI模型训练推理、仿真、渲染、生信分析、数值计算等场景提供完善的算力管理能力。
ACE支持多种异构GPU资源,开发者可以根据需要灵活选择卡资源、CPU类型的组合,以达到最优性价比、信创兼容等多方面的目标。
大气科学为特色的全国重点大学,国家“双一流”建设高校。
存在问题:
气象部门数据管理存在信息资源碎片化、业务应用条块化、各级系统割裂化等问题,气象数据管理由下至上,实际业务运行时,区和市对系统不熟悉,使用门槛高、限制多。
资源浪费严重:
依赖人工定期查看,计算分散且监管繁琐,造成资源空闲和无效排队等问题,造成资源浪费。
作业效率低下:
环境复杂算法难以快速部署和实时观测,致使运维十分困难。多种框架环境下准备调试困难。
依赖手工操作:
管理依靠命令行查看,多服务器需要多次登陆重复且繁琐且难以掌握全局使用情况。
项目简介
· 平台主要面向研发及训练对于计算环境及资源的多样化需求开展建设,支撑了近80名师生的科研工作。
· 科研人员在唯一计算环境中完成“研发、调试、训练”的全过程,无需在多个页面切换,更加贴合使用习惯,提升科研效率。
· 在大规模训练时,科研人员可以在容器中按需提交slurm任务k8s任务,不需要用户登录到管理节点提交任务;
· 简化用户操作,减少安全隐患。