天数智芯天垓100_智铠100云边推理加速卡

天数智芯天垓100

天数智芯天垓100，已有200+人工智能模型、通用及高性能计算应用落地，提供10个行业案例。代码无需重新开发，兼容大部分软硬件生态，支持主流编程，提供12 个应用开发包。与行业主流GPU软硬件架构可类比，百大应用，集群性能接近行业主流产品。

立即咨询

首页 > 产品中心 > 企业服务 > 天数智芯天垓100

国内率先实现量产的通用GPU——天垓100 icon

天垓100（云端训练） icon

2021年3月，天数智芯发布首款通用GPU芯片——天垓100，并于2021年9月实现量产。

天垓100产品特点

应用覆盖广
已有200+人工智能模型、通用及高性能计算应用落地，提供10个行业案例

开发易迁移
代码无需重新开发，兼容大部分软硬件生态，支持主流编程，提供12个应用开发包

性能可预期
与行业主流GPU软硬件架构可类比，百大应用，集群性能接近行业主流产品

智铠100（云边推理） icon

2022年12月，天数智芯正式发布通用GPU推理芯片——智铠100，天数智芯成为国内同时拥有GPU架构下云端训练+云边推理完整解决方案的硬科技公司。

智铠100产品特点

计算性能高
支持FP32、FP16、INT8等多精度混合计算，实现了指令集增强、算力密度提升、计算存储再平衡，支持多种视频规格解码。

应用覆盖广
多达800余条通用指令集，支持主流深度学习开发框架，拥有丰富编程接口拓展和高性能函数库，可以灵活支持各种算法模型，便于客户自定义开发。

使用成本低
兼容市场主流生态，代码易迁移，开发成本低；支持高达128路视频接入，单路视频性价比高，部署成本低。

支持200+ AI模型训练 icon

支持200种以上的AI模型训练，强化学习，未来新算法扩展容易。支持LINPAC所需要的基础数学库，BLAS，FFT等。支持各种基于CPU数学运算快速迁移。

软件栈兼容国内外主流生态 icon

兼容主流生态，已开:e:本方而可跑通，已适配X86，ARM等CPU架构。

全栈生态支持

天数智芯通用GPU产品已支撑各领域百余家企业应用 icon

DeepSpark开源社区：百大应用开放平台 icon

天数智芯本着“平台共建、生态共享、产业共赢”的原则，和行业伙伴一起打造DeepSpark开源社区，目前主要致力于百大应用开放平台的打造和推广。百大应用开放平台作为国内领先的AI和通用计算应用开发及评测平台，甄选上百个与行业应用深度耦合的开源算法和模型，支持主流生态应用框架，并针对行业需求构建多维度评测体系，广泛支持各类落地场景。

云平台：天数智芯GPU集群管理平台 icon

天数智芯基于已商用量产的通用GPU芯片（包括训练、推理），以及开源的Kubernetes容器集群管理系统，联合生态合作伙伴，搭建了一套覆盖IaaS、PaaS、SaaS的异构计算平台，覆盖不同的云服务模式，可以为公有云、私有云、混合云的不同客户需求做深度定制开发。

一站式
IaaS->PaaS->SaaS

VM、POD、容器统一管理

支持虚拟化
算力分配最小颗粒是1/100

内存分配最小颗粒是256M

灵活部署
支持x86和ARM架构CPU系统

支持异构纳管，混合部署

稳定可靠
自带看门狗监测系统异常并自动恢复安全存储，用户隔离

互联网：人脸比对 & 以图搜图 icon

Faiss库是向量化检索开山鼻祖的开源算法库，为稠密向量提供高效相似度搜索和聚类，对10亿量级的索引可以做到毫秒级检索的性能。基于不同的应用场景有不同的索引构建方法。其中，Flat索引为暴力穷举法，应用于精确搜索，召回率高，但检索速度慢，内存占用大；IVFPQ（倒排序乘积量化），将向量分段量化，每一段分别聚类。主要应用于快速实时检索，内存占用较少的场景，但召回率相较于Flat要低。基于智铠推理卡的底层硬件特性，对Flat和IVFPQ算法进行了算法迁移和模型定制化调优。方案优势超大库容热数据，单机支持最大80亿全量特征热数据检索比。兼容主流生态，算法迁移快。提供毫秒级检索。

智慧交通：视频结构化 icon

交通事件检测：行人上路检测、停车、逆行、事故、拥堵、抛洒物、烟火等。交通态势感知：车流量、平均车速、排队长度、车道空间占有率等。车辆结构化分析：车牌识别、车型识别、车身颜色识别等。雷视一体化：实现雷达数据与视频数据的融合分析，从而实现全天候检测能力。此外，利用交通行业海量数据，在中心侧构建云控大数据分析平台，实现异构数据的计算、多种AI算法协同和分析的数智化底座。方案优势最多支持128路视频接入，单路成本更具性价比。通用GPU架构，可满足多场景下不同算法模型的支持需求。INT8算力高，可支持应用层面的多个不同级联模型的实时分析处理。

智慧金融：OCR

天数智芯通用GPU产品，同时为OCR云端训练和设备端推理提供高性能、广覆盖的算力能力。天垓云端训练产品可为训练端模型开发提供训练数据生成、各类前沿的图像矫正、文字和表格的检测、识别、理解算法的训练，及模型压缩加速的全流程支持，和定制化服务。智铠100云边推理产品支持推理端各类通用及行业专属场景的上百种主流算法模型，新兴算法可快速适配。

更高效率
通用GPU并行处理，更显著提升信息录入效率

更高准确率
支持对开源模型的优化，提高细分场景识别准确率

更广实用性
能够实现多种场景、多种语言的识别

智慧医疗：医学影像 & 基因测序 icon

经客户实际测试，天数产品迁移成本低，适配时间短，基本无工程代码修改，可满足目标用途。训练产品的分割、检测平均性能接近国际主流产品水平；推理产品性能略优于国际主流产品。

医学影像

基于天数智芯训推一体的解决方案，可支持包括Yolo、Resnet、U-Net 3D在内的多种用于临床医学的图像检测与分割模型，可以基于2D、3D图像实现对相关病灶的自动检出和分割，为患者临床治疗提供辅助参考。

基因测序

搭建RNN NLP类等AI深度网络训练平台，构建基因检测碱基对识别的能力，将对前端CMOS成像组件对碱基对的成像过程中形成的大量图片，经过AI模型后处理规整后，统一送入后端基因库存储。

智能制造：工业质检

工业质检主要涉及产品外观缺陷、尺寸、平整度、校准、焊接、质量、弯曲度等检测。客户的主要应用场景为PCB检测，缺陷情况复杂，对精确度要求有较高要求，因此模型需要时常更新，但传统方法在模型失效后再训练周期长，成本高。天数智芯训推一体解决方案，基于通用GPU产品，结合机器视觉与神经网络算法，支持端到端复杂场景的AI质检，实现从人工设计特征与规则到AI自动学习的突破，支持模型的持续训练优化并快速上线，从而保证质检的准确性。

01
提供端到端训推一体的AI质检方案

02
根据成像环境和缺陷轻微变化自动调整阙值，提高质检效率

03
支持客户改进算法的持续迭代，实现模型快速上线

04
保证系统的高效稳定运行，帮助客户企业实现降本增效

智慧语音：实时翻译

基于天数智芯产品软硬件的通用性优势，支持客户自定义算子，持续提高识别与翻译的准确性。时延低，满足实时处理需求在保证效果收敛的同时，平均效率媲美国际主流产品。迁移周期更短。稳定强大的算力保证客服 7x24在线，服务无闲时。支持海量数据训练，识别准确率高，服务更精确。对主流算法模型做针对性优化加速，接待零延时。

智慧教育：姿态识别

中心化部署方案对边端侧部署方案整体成本降低20%，支持客户的定制模型，满足计算精度要求，支持云边端一体化、解码与推理一体化，达成延迟与吞吐量平衡。

中心化计算部署

通过部署在中央计算服务器内的计算单元，拉取端设备视频流做推理生成特征流，支持多路负载均衡，多卡并行，通过天数方案优化数据传输并实现多路视频与计算卡间动态映射。

多模型支持

支持包括检测（Yolo）、姿态识别（Alphapose）在内的多个算法模型多实例组合应用，可实现pipeline多并发处理。可在姿态识别的基础上叠加人脸识别，实现违规人员自动锁定的功能。

自动驾驶：云端训练 & 多传感器融合 & 车路协同 icon

模型云端训练

基于天数智芯通用GPU产品搭建自动驾驶模型训练平台，全面支持各种任务的训练，包括：视觉感知类模型：目标检测、分割及重要骨干网络，激光雷达点云模型，如Point -Pillars、PV-RCNN、RandL A-Net等，新方向的ViT类模型。

多传感器融合

多传感器融合是目前自动驾驶的主流技术路线之一，将包括摄像头、毫米波雷达、激光雷达等传感器采集的数据进行融合处理，从而达到在更多场景下对目标进行精准识别的目的。雷达工作频率在10Hz或者20Hz，水平角分辨率为0.2°或者0.4°。通过天数通用GPU产品天垓100完成Pillar网络特征提取并转成伪2D图像，其后基于2D图像做CNN处理，最后基于SSD的目标检测头进行 BBOX回归。基于Pytorch框架做混精训练及推理验证天数卡的性能及准确率。

车路协同

边缘计算：通过算力前置，快速收集路边数据，分析路侧事件，低时延完成路侧调度分发。最多支持128路视频接入，通过更多传感器采集的数据，能够更加精准和全面的判断交通状况，提供更加精准合理的事件通知。交通云平台：对路上车辆和路侧各类设备进行统一接入和管理，并承载周边系统对接以及上层业务运行的任务。支持雷视一体等结构化数据处理。可支持不同细分场景下多种算法模型的排列组合。

高性能计算：地质勘探 icon

RTM（Reverse Time Migration）逆时偏移算法是地震勘探领域复杂构造油气藏成像的精确算法之一，可以用于石油勘探的各个阶段，包括早期的远景区研究；中期的油藏模型建立；后期的油田生产寿命管理。逆时偏移是对双程波动方程的一种精确求解，RTM算法实现大多数采取有限差分方式，使用GPU可以加速大尺寸矩阵的计算；提供更高效的有限元差分类算法库；针对高性能计算中，Kernel函数比较复杂情况下，优化编译器参数。

01
提供国产化混精解决方案；相比较双精算力，效率平均可提高30%。

02
在精度上与行业标准的计算结果差值控制在10E-8左右，性能可以媲美国际主流产品水平。

03
根据客户优化后的RTM GPU加速算法提供定制化开发支持。

AIGC：基于NeRF的3D建模/渲染 icon

基于已经商业量产的天垓100通用GPU，结合CUDA兼容软件栈，利用主流3D计算机视觉库，如Pytorch3D/JNeRF库等，已经完成多种不同NeRF模型变体的代码迁移适配，可以满足不同尺度、实时性等建模应用场景。如下：

Mip-NeRF：解决NeRF在做渲染时会出现模糊和锯齿的情况，更快、更小、更准的优势，更加适合处理multiscale的数据。

Hash-NeRF：基于多分辨率哈希编码，将NeRF的训练市场降低到了分钟级，甚至秒级。

City-NeRF：可以实现城市级大尺度、多尺度的场景建模和渲染，同时应用卫星和地面图像，可以呈现不同细节级（level ofdetail）。

AIGC：AI绘画（Stable Diffusion） icon

Diffusion model（扩散模型）是一种生成模型。核心思想是图片逐渐加噪的过程中会逐渐丢失图片信息，但如果学习到加噪的模式，那逆过程就可以逐渐去除噪声恢复图片。为了能够控制生成的图像内容，Stable diffusion中加入跨模态的文本监督信息，在推理时引导由随机初始化的高斯噪声图片生成想要的图片。已完成Stable diffusion在天垓100通用GPU的迁移，性能接近市场主流产品，可以实现秒级出图。为方便用户使用，基于天垓100的AI绘画功能已上线AI公有云平台，通过几个关键词实现秒级出图。秒级出图。画质好，画面逻辑合理，风格多样化。模型更新迁移速度快，可在短时间内上线更新模型。

大模型：分布式训练

天数智芯通用GPU除支持GPT、T5等通用大模型外，还支持大量研究机构的开源大模型。以开源的“悟道”系列大模型为例：

CPM-2：以中文为核心的大规模预训练模型，基于50TB大规模数据训练而成，百亿-千亿参数，兼具阅读、概括、分类等七种及其语言能力；GLM2.0：打破BERT和GPT壁垒，以单一模型兼容所有主流架构，100亿参数量；Cogview：中文多模态生成模型，包含40亿参数，用于文本生成图像，已完成在天垓100训练卡和智铠100推理卡的迁移。

在大模型时代，不是每一个研发团队都具备 “钞” 能力，能够随时调用大规模 GPU集群来训练大模型。由潞晨科技开发的大规模并行加速系统——“夸父”（ Colossal AI ），凭借高效异构内存管理等核心组件，可帮助用户显著提高大规模AI模型训练和部署效率。天垓100产品卡已与Colossal-AI 完成并通过相互兼容性测试认证，为业内提供高性能、通用性、灵活性的AI大模型计算加速解决方案。