北京天云融创软件技术有限公司(简称天云)是一家专注于云计算、高性能计算和智能计算领域的创新型科技企业,公司一直秉承自主研发的理念,为客户提供优质的平台化软件开发、完善的一体化解决方案以及高质量的运维服务,帮助客户突破算力颈,解决繁杂的云服务管理困扰。
SkyForm 智算云平台是天云公司的核心产品线之一,skyForm 智算云平台包含智算控制台、算力应用、算力调度这三大功能模块,适配了国内主流国产化操作系统及国产化 GPU,集成了业界主流开源大模型框架,如 vllm、还兼容ollama、LLama Factory、Openllm、CTranslate2、Ray Serve、MLCLLM 等SkyForm 智算云平台是一个综合性计算服务平台,其不但提供应用 SaaS 化分布式计算、大模型服务等关键能力,而且还提供平台运营、运维监控管理等管理能力,它可以服务于不同领域不同用户人群,包括但不限于以下用户:
1、为工业制造、人工智能领域的最终用户:
·获取更高的算力:通过提供的智能计算和并行计算能力,突破颈,
·更快的选代速度:智能化调度系统支持多批次高密度、高强度计算任务。
·更多的应用场录:应用集成能力满足工业、智算、医疗等诸多领域需求
·更省使用成本:细粒度资源租赁、按需计赛等多种模式节约成本
2、为运营方、管理者提供以下能力:
·完备的运营能力:支持平台多租户管理、充值计费、运营分析,单卡、多卡,多集群调度等功能
·解决安全及管理问题:满足安全保密测评、审计、安全漏扫等要求。
·强大的运维支撑工具:支持集群多维度管理监控、提供 ITIL支撑工具,
3、为最终用户提供以下能力:
·解决模型部署困难:提供模型市场,用户按需一键部署。
·解决模型工具困难:提供工具市场,用户按需一键部署。
·解决模型开发困难:提供 GPU 环境,可本地开发,远程运行与调试。
·解决模型微调困难:提供微调服务,用户一键启动微调。
SkyForm 智算云平台是由 SkyForm 算力调度系统和 SkyForm 算力应用以及 SkgyForm 多云管理平台组成的管理平台,它能为用户提供一体化、端到端的智能计算和高性能计算服务,是一个综合性计算服务平台,其不但提供应用 saas化、分布式计算等关键能力,而且还提供平台运营、运维监控管理等管理能力。
如下是平台的结构图:
图1:智算云平台结构示意图
大模型训练场:大模型训练场提供大模型服务面向 AI人员提供自然语言图像、视频、音烦的模型训练与部署,提供集中化应用市场,简化用户对模型工具的寻找和繁琐的部居,一键化安装、训练,通过集成编排各种算力资源,实现容器、裸金居算力集群统一归集和标准化服务,可视化服务,让AI更简单
SkyForm 智算云平台具有广泛的应用场录,包括但不限于以下几个方面:
大模型推理服务:智算云平台提供强大的大模型应用市场,用户可自上传或从 docker hub、阿里、华为等镜像仓库中拉取应用和模型,实现一键部署。
算力运营服务:服务商提供计算能力资源,这些资源可能来自于数据中心的服务器、云计算资源或是专门的算力中心。客户可以根据需要租用这些计算资源,而无需自己投资购买和维护硬件设备。
大模型微调服务:智算云平台提供丰畜的算力资源、可视化微调应用框架供给用户进行模型微调。
人工智能开发和训练:智算云平台提供强大的计算资源和算力,可用于人工智能模型的训练和优化。研究人员和开发者可以在平台上使用高性能的 GPU和 CPU 资源,加速深度学习、机器学习和自然语言处理等领域的算法开发和模型训练。
容器化应用部署:智算云平台支持容器技术,用户可以将应用程序打包成容器,并在平台上快速部署和扩展,容器化技术可以提供更高的灵活性和可移植性,使应用程序在不同环境中运行,加快应用部署的速度和效率。
大规模模拟和仿真:智算云平台提供高性能计算资源,适用于各种科学计算、工程仿真和虚拟现实等领域的应用,用户可以利用平台上的算力进行大规模的模拟和仿真,加速科学研究和工程设计的过程。
企业级应用开发和部署:智算云平台提供丰畜的开发工具和服务,支持企业级应用的开发和部署。用户可以在平台上构建和管理自己的应用环境,实现快速开发和部署,提高应用的可靠性和可扩展性。
综上所述,智算云平台可以广泛应用于人工智能、容器化部署、科学计算和企业级应用开发等各个领域,用户可以根据自身需求选择合适的服务,实现快速部署和高效运行。
3.1 系统个性化
系统支持用户进行个性化配置,个性化配置包含登录页面、系统图标、背景图、文字内容、系统风格配置等,同时系统亦支持通过业务规则组合不同功能比如开启/禁用菜单展示、开启/禁用注册用户、开启/禁用告警等功能,通过个性化设置可以让用户快速配置出满足其需求的系统。
图3:智算云平台--登录页面
图4:智算云平台--菜单管理
SkyForm 智算云平台最核心的特性是集中管理、统一管理、优化计算机算力资源和人工智能技术,平台国产化支持及快速部者,与主流并行平台 MPI(如Intel MP1)深度集成,可以实现MPI作业的高效调度和管理。平台还提供算力资源管理、任务调度和分配、资源监控和报告、大模型服务、安全保障、支付结算、技术支持、个性化定制和优化算法等产品与服务。
平台提供支持多种主流大模型框架能力,如vllm、Deepgpeed、Openllm、Textgeneration inference、CTranslate2、Ray Serve、MLC LLM等模型;通过集成各种算法、模型和工具,为用户提供一站式的人工智能环境。同时提供丰言的效据和模型服务,帮助用户速构建和都者人工智能应用,
支持用户上传或者到模型应用市场一键化部者模型,提供模型训练、模型推理。通过集成编排各种算力资源,实现容器、裸金属算力集群统一归集和标准化服务,可视化服务,让 AI更简单:
图6:智算云平台一我的工具页面
通用算力模块涵盖了多种云计算资源的管理,比如支持用户在平台中对弹性云主机、裸金属服务器、镜像、弹性伸缩、存储、网络和容器等资源进行管理。包括但不限于以下几个方面:
·弹性云主机管理:用户可以创建、配置和管理虚拟机实例。他们可以选择不同规格的云主机,根据需求灵活分配和使用计算资源。
·裸金属服务器管理:该功能允许用户直接访问物理硬件资源,满足对计算资源性能和安全性要求较高的应用场景。
·镜像管理:用户可以管理虚拟机镜像,包括创建、导入、导出和共享等操作。这样可以快速部署和扩展应用程序。
·弹性伸缩:通过设置自动伸缩策略,系统可以根据实际需求动态调整计算资源规模。这样可以实现资源的智能分配和动态缩放。
·存储管理:该功能支持多种存储类型,包括块存储、文件存储和对象存储。用户可以根据应用的数据存储需求选择合适的存储方式。
·网络管理:用户可以配置和管理虚拟网络,包括子网、路由和安全组等。这样可以确保网络的安全性和稳定性。
·容器管理:智算云平台支持容器化部署,并提供容器编排和管理功能。这样用户可以轻松部署和扩展容器化应用。
通用算力管理模块可以帮助用户灵活高效地管理和优化各种云计算资源,实现资源的最大化利用,提升应用性能和可靠性。同时,用户可以根据具体需求选择适合的资源类型和配置,实现个性化的云计算资源管理和应用部署。
图7:智算云平台一通用算力
K8S(Kubernetes)是一种开源的容器编排和管理平台,用于自动化部署、扩展和管理容器化应用程序。K8S提供了丰富的功能和工具,使用户能够轻松地管理和运行大规模的容器集群。
SkyForm 智算云平台的 K8S 旨在为用户提供便捷、高效的容器化应用管理服务。用户可以通过智算云平台快速购买 K8S集群资源,选择合适的规格和配置以满足其应用程序的需求。支持通过远程连接工具与K8S集群进行交互,查看集群状态、管理应用程序、调试问题等。支持用户进行变更,根据实际需求随时变更 K8S 集群的规格和配置等。
集群算力模块提供对裸金属集群等资源的集中管理。提供了统一的管理界面让用户可以方便地监控和管理集群中的资源,包括节点的状态、资源利用率、任务的运行情况等。负责对集群中的资源进行调度。它可以根据任务的需求和集群的负载情况,智能地将任务分配到合适的节点上,以实现资源的高效利用和任务的快速执行。帮助用户高效地管理和利用裸金属集群等资源,提高系统的性能和可靠性。
购物车功能,可以帮助用户减少多次下发云产品和结算的操作,即用户可以将所需配置的云产品加入购物清单进行临时存放,在最后统一开通和结算。
提供多种主流大模型,为用户提供一站式的人工智能环境。同时提供数据上传和模型部署服务,帮助用户速构建和部署人工智能应用。支持用户上传或者到公共模型一键化部署模型、模型训练、模型推理。
数据集模块提供训练数据的上传、编辑、删除和查看详情等功能,以帮助用户有效管理数据集。用户可以通过数据集管理模块将训练数据上传到系统中。这样,用户可以方便地将数据集存储在统一的平台上,便于后续的训练和使用。用户可以根据需要删除不需要的数据集。通过数据集删除功能,用户可以及时清理无用的数据,释放存储空间。用户可以方便地管理训练数据,优化数据集质量提高模型训练的效果和效率。
模型任务模块包含任务概览、模型微调、模型环境和开发调试等模块,用户可以通过这些功能进行模型训练和环境调试,以提高模型的性能和效果。模型任务完成后,用户可以进入我的模型中找到对应的模型进行一键部署并使用。一键部署功能让用户能够快速将训练完成的模型部署到生产环境中,方便用户直接使用。
任务概览:用户可以在任务概览中查看已创建的模型任务的基本信息,包括任务名称、状态、进度等。通过任务概览,用户可以快速了解各个模型任务的整体情况,方便管理和监控。
模型微调:用户可以对已有的模型进行微调,以适应特定的任务需求或数据特征。通过模型微调功能,用户可以调整模型的参数、优化算法等,提高模型在特定任务上的表现。
模型环境:为用户提供预置训练部署模型所需要的环境,免除安装烦恼,基础镜像包含常用基本软件,如:深度学习框架、Miniconda等。如需其他软件可创建后安装,环境申请后可以通过 jupyter 直接访问环境。
开发调试:开发调试环境,选择资源CPU核数、GPU卡数,提交申请,返回连接地址和 sshd key。用户可以通过 VSCode Remote SSH插件连接,适合在本地做开发调试者用户。
模型任务能够帮助用户高效地进行模型训练、微调和部署。通过任务概览,用户可以清晰地了解已创建的模型任务的基本信息,方便进行管理和监控。在型微调和模型环境模块中,用户可以对模型进行微调和优化,同时可以自定义模型的环境配置,以提高模型的性能和效果。
图 10 :智算云平台-模型微调
模型根据不同的分类方式进行归类,包括模型实例、我的模型、我的收藏和公共模型。同时,模型还可以根据其类型进行分类,例如大语言模型、图像模型音频模型、视频模型等。这些类型表示模型在不同领域或任务上的应用场景。用户可以根据自己的需求和兴趣进行模型管理、调优和部署。
模型实例:模型实例是指已经创建并部署的模型,用户可以直接使用这些已经训练好的模型。
我的模型:我的模型是指用户自己创建并训练的模型,用户可以在这个分类下管理和部署自己的模型。
我的收藏:我的收藏是指用户在公共模型库中收藏的模型。用户可以根据自己的需求将感兴趣的模型收藏起来。可以在我的收藏列表中找到相应模型,并进行一键部署。即用户可以快速将收藏的模型部署到自己的模型实例中,方便使用和调用。
公共模型:公共模型是指平台上共享给所有用户的模型,这些模型可以是由平台团队或其他用户创建和共享的。用户可以利用这些公共模型作为基础模型进行进一步的微调和使用。
通过将模型分为模型实例、我的模型、我的收藏和公共模型,用户能够清晰地组织和管理自己的模型资源,快速找到需要的模型并进行部署和调用。提供根据模型类型进行分类,能够让用户更快捷地找到符合特定任务需求的模型,提高了模型的可用性和适用性。
模型工具可以根据不同的分类方式进行归类,包括工具实例、我的工具和公共工具。同时,工具可以根据其类型进行分类,包括对话型工具、文本生成型工具、图像生成型工具以及其他类型的工具。
工具实例:工具实例是指已经部署的工具,用户可以直接 webu 使用工具。
我的工具:我的工具是指用户收藏的的公共工具,提供部署工具功能。
公共工具:公共工具是指平台共享的工具,用户可以在公共工具库中找到并应用这些工具。应用后在我的工具中进行部署工具,提供多次部署功能。
用户无需自己寻找工具包,可以方便地使用模型。并且用户可以更好地管理和组织自己需要使用的工具,同时也可以在公共工具库中找到其他用户分享的工具进行应用。根据工具类型进行分类能够更容易地找到符合自己需求的工具,提高了工具的可用性和用户体验,极大地简化用户在模型工具使用过程中的操作流程,提高工作效率。
图 12:智算云平台一我的工具
支持按租户进行账号管理、订单管理、我的资源、成本管理、费用账单等多维度管理。账单管理提供账单概况、充值明细,支持按云商、产品计费价格,提供流水账单、账单详情导出,支持租户充值明细的审核和追踪。在运营控制台中为管理员、租户管理员提供租户、用户配额控制功能,满足费用、存储空间、核时等多维度配额控制需求。
支持大模型服务模块的账单管理,模型账单页面用于统计用户模型账单汇总流水账单、账单详情。获取以下信息:
汇总:支持根据不同平台的集群、资源、模型、训练数据、工具、租户来统计消费金额。
流水账单:支持查看用户购买所产生的所有流水账单信息
账单详情:支持查看用户购买所产生的所有流水账单的详情信息。
系统为系统管理员提供管理功能,提供对组织、用户、公司、业务、团队、岗位、区域、租户多维度进行管理,用户可按照组织机构不同进行选。提供组织配额管理功能。支持在非三员模式下用户自助注册用户及找回密码等功能。支持组织对其下属组织设置配额,控制其资源使用,满足相关运营类需求
以上内容主要概括了用户模块的重要功能,部分功能未一一罗列。
智算云平台会设定不同的用户角色,如管理员、普通用户、开发者等,支持每个角色拥有特定的操作权限。管理员可以对用户角色进行管理,包括分配权限、修改权限等。支持采用认证机制,如用户名密码认证、双因素认证等,确保用户身份的真实性和安全性。支持记录用户在平台上的操作日志,包括登录日志、操作日志等,以便管理员进行监控和审计。
系统为系统管理员提供权限设置功能,支持管理员给不同角色设置不同的权限,如平台、菜单等设置。控制用户在系统中的操作范围和权限,确保系统的安全性和稳定性。
图 16:智算云平台一角色管理
提供给管理员通过查看操作日志来追踪和监控平台的运行情况。操作日志会记录管理员和用户的操作行为,包括登录、退出、部署模型、应用工具等操作。支持管理员根据特定条件进行查询,以便快速定位和分析特定的操作记录。此外,支持管理员选择部分或全部导出操作日志,以备日后审计或分析使用。操作日志的完整记录和及时查看可以帮助管理员及时发现问题、解决异常情况,保障平台的正常运行和安全性。
系统为系统管理员提供管理功能,系统管理支持菜单管理、模块管理、参数设置、字典设置、品牌管理、平台管理、服务配置、功能配置多维度进行管理。管理员有效地管理系统的各个方面,确保系统的正常运行和安全性。
工单控制台提供服务台、工单配置、流程管理、SLA统计分析、知识库模块功能。
服务台模块支持新建工单提交得以实现提交问题、请求或需求。可在我发起的工单界面随时跟踪和管理自己提交的工单,了解处理进度和结果。审批人员也可在我的已办或与我相关工单中查看和跟踪已审批工单的流程进度。
统一 SLA 规则配置后,提供给工单人员统一查看和判断工单是否按时完成,确保及时响应和处理。在 SLA 统计分析模块中,提供业务的整体分析、审批人记录、各环节平均时间分析、每个业务类型的处理分析、用户处理时间分析,根据流程和环节作出一系列的图表分析。
流程管理模块可以帮助用户对工单流程进行分类、设计、部署和管理,提高工作效率和流程可控性。包含流程分类、流程模型设计、表单模型、流程实例、流程定义、任务管理模块。通过灵活的配置和定制,用户可以根据实际需求创建适用于不同业务场景的工单流程。
工单配置模块用于配置和管理工单系统中的业务信息和业务类型,配置好的业务和类型可以在服务台的新建工单处显示,供用户快捷定位提交不同类型的工单。工单配置模块允许管理员创建、编辑和删除不同的业务信息,支持在工单配置模块中定义和配置不同的业务类型,包括工单的分类、类型名称、关联流程等。业务类型绑定特定的流程,即将特定的业务类型与相应的流程关联起来,以便管理员在处理该类型工单时按照指定的流程进行操作。提供管理员对不同的业务类型进行权限管理,设置业务类型的查看、辑等权限,以确保只有具有相应权限的用户可以对该工单进行操作。
知识库提供存储和管理知识信息,如与工单处理相关的知识信息和解决方案问题工单可在我的已办中进行转为知识库。知识库可进行空间授权设置,不同空间的知识信息提供给不同用户查看。
提供管理员有效地管理系统中的产品信息,确保产品信息的完整性和准确性为用户提供更好的产品浏览和选择体验。可以根据自己的需求选择适合自己的产品配置,在系统中定义不同类型的产品,包括不同资源池下的云计算产品。支持管理员对产品进行上架、下架和编辑操作,以控制产品的可见性和状态。支持管理员根据用户的权限设置不同的产品访问权限,确保只有具有相应权限的用户可以查看和购买产品。支持管理员对产品进行折扣管理,设置不同的折扣策略和优惠活动,以促销产品销售。
管理员可以灵活管理系统中的云计算产品,提供给用户多样化的选择,并根据市场需求和销售策略进行调整和优化。
配置管理中支持资源池、项目、云区域、可用区、规格、镜像、数据类型云账号、审批配置的管理。支持管理员调整和配置系统中的各种资源和设置,包括资源池、云区域、规格等。支持管理不同的云账号和身份验证信息,以确保用户和服务能够安全地访问云服务和资源。支持管理和维护不同的镜像,以便用户快速部署和启动虚拟机或容器实例。支持定义和管理不同的数据类型,包括数据库类型、文件类型、日志类型等,以便用户根据需求进行数据存储和管理。支持定义审批流程和规则。管理员还可以进行权限分配,如限制对资源池的访问。提供资源池的连接测试功能。通过连接测试,管理员可以验证系统与资源池之间的连接是否正常和稳定。
提供对云计算资源、模型等多目标进行告警通知。支持管理员设置各种监控指标和阈值,例如 CPU 利用率、内存使用率、网络流量等,满足管理员对集群更深、更细指标的监控需求。当这些指标超过或低于设定的值时,系统会自动生成告警通知。通过对模型任务的监控,可以帮助开发人员和数据科学家及时了解模型的运行情况,发现潜在问题并及时解决,提高模型的效果和性能,保障模型任务的顺利运行。同时,监控还可以为模型任务的优化和改进提供数据支持。支持管理员选择通过邮件、系统消息提醒等方式接收这些告警通知,以便及时了解和处理相关问题。
SkyForm 智算云平台是一个集成了企业内部资源管理、监控功能以及对外算力运营服务的大型交互系统。该平台不仅提供裸金属服务器和 Kubernetes 集群的管理,还将大模型训练、推理和应用工具融合在一起,为用户提供强大的系统解决方案。通过 SkyForm 智算云平台,用户可以进行资源管理、监控、大数据处理、机器学习等操作,实现高效的计算和数据处理能力。
其特点和优势如下: