大模型带火数据训练,腾讯云向量数据库重磅发布!

来源: 云巴巴 2024-03-27 10:41:26

AI 技术不断向前发展,一个核心驱动因素,就是背后的存储、处理和分析大量数据所需要的强大基础设施也在不断发生进步。这波“新基建”浪潮也催生出又一颗冉冉升起的新星——向量数据库,一种用于管理非结构化数据,包括数字形式的文本、音频、图像和视频的强大解决方案。

可以说大模型数据训练需求的催化,让向量数据库愈发红火。

大模型的出现给人工智能带来了新的计算范式 —— the CVP Stack。其中,“C”代表大模型( ChatGPT 等 ),负责向量计算;“V”代表向量数据库( Vector Database ),负责向量存储;“P”代表 Prompt 工程,负责向量交互。

随着大模型技术的发展,向量数据库将在 AI 时代扮演极为重要的角色。它可以最大限度地发挥大模型威力的同时保护数据隐私,实现更丰富的智能应用。

icon大模型引发爆发增长的向量数据库

当我们见到一个熟悉的人的时候,大脑是这样思考的:首先,眼睛中的视杆细胞和视锥细胞记录下光的强度。这些信号传递到位于你大脑后方的视觉皮层,在皮层中数以百万计的神经元以不同的强度被激活。激活信号传输到你的颞叶,你的大脑解释为:我看到了某某。

尽管大模型呈现出的形式是端到端、文本输入输出的,但实际模型接触和学习的数据并不是文本本身,而是向量化的文本。想要按这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。

过往,承担数据组织的是传统关系型数据库,但它更适合用来应对结构化的数据。大模型和神经网络,更多面对的是海量的非结构化数据,比如文本、音频、视频、关系等。

把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。

它被广泛地用于大模型训练、推理和知识库补充等场景:

支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效;

通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。

……

简而言之,如果大模型是一个智能的处理器,那向量数据库就是配合这台处理器的”外置缓存"。

icon腾讯云向量数据库重磅发布

与传统数据库不同,向量数据库特别擅长从非结构化数据中提取见解。这些数据库使用向量嵌入来表示数值型数据,并将其排列在彼此相似的一个个聚类当中,能够帮助用户使用相似对象查询数据库,从而轻松比较并找出最适合的匹配项。向量搜索的另一个优势就是这类查询延迟更低,特别适合生成式 AI 应用。

企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023年4月的AI投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate等向量数据库初创公司都在这个月获得了融资。

近日,腾讯云发布了国内首个AI原生的向量数据库,它最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。

针对大模型场景,它在接入层、计算层、存储层实现了全面AI化:

在接入层,智能化支持自然语言文本的直接检索;

在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从一个月缩短到3天;

在存储层,融合智能压缩算法,把向量存储成本降低50%。

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗,相比传统方式可以实现10倍效率的提升。

如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2~4个数量级。

其实,腾讯云向量数据库经历了鹅厂内部业务的长期锤炼:

覆盖腾讯视频、QQ浏览器、QQ音乐等上百个业务场景,每日调用量超千亿次;

支撑QQ音乐人均听歌时长提升3.2%,QQ浏览器成本降低37.9%,腾讯视频有效曝光人均时长提升1.74%;

向量化能力(embedding)多次获得权威机构认可,曾登顶MS MARCO榜单第一。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

快来了解一下数据库的数据种类吧

快来了解一下数据库的数据种类吧

数据库根据不同的数据结构和组织接触是不同的,数据库系统通常可以分为不同层次式数据库、网络式数据库和关系式数据库设计三种。 数据结构模型 所谓数据库的数据进行结构是指数据的组织管理形式或数据发展之间的联系,如果数据用D表示,数据对象之间的关系集用R表示,

2022-11-22 10:54:00

10个关于数据库设计的最佳实践(下)

10个关于数据库设计的最佳实践(下)

10个关于数据库设计的最佳实践。 规范化是关键 数据库的规范化指的是将数据库中的所有信息进行组织发展起来,避免数据可以重复和冗余。简言之,将归一化的数据被分成多个较小的分布相关的表中的,而不是一个大表的所有

2022-11-22 15:48:22

数字化案例秀 ‖ 首次国产!腾讯云TDSQL落地张家港行

数字化案例秀 ‖ 首次国产!腾讯云TDSQL落地张家港行

腾讯云TDSQL落地张家港行,合力打造金融业务。 TDSQL涵盖金融级分布式、云原生、分析型等多引擎融合的完整数据库产品体系,可满足客户及业务的各类需求。

2022-03-31 19:54:42

细谈友邦人寿如何从传统数据库实现最佳上云

细谈友邦人寿如何从传统数据库实现最佳上云

本篇内容将从3个部分为读者介绍关于友邦人寿从传统数据库迁移上云的实践,进一步介绍友邦人寿在传统IT基础设施的现状和挑战、迁移上云的过程及未来的演进和展望。

2021-12-10 14:58:21

从“新基建”看国产分布式数据库的大机遇

从“新基建”看国产分布式数据库的大机遇

“新兴基础设施建设”即“新基建”,指发力于科技端的基础设施建设,主要包括七大领域:5G基建、特高压、城际高速铁路和城际轨道交通、新能源汽车充电桩、大数据中心、人工智能和工业互联网等七个领域。

2020-04-16 17:36:49

基于腾讯云数据库构建商品加工引擎,管理近10亿商品数据

基于腾讯云数据库构建商品加工引擎,管理近10亿商品数据

商品加工引擎是腾讯基于云原生打造的高可用、可扩展、灵活配置的商品处理引擎,融合商品接入、商品加工、商品存储、商品分发、链路监控、商品对账等核心能力,支持近十亿的商品管理和加工,以及腾讯多个核心应用场景。

2022-03-03 09:45:49

严选云产品

同创永益IStorMDR容灾运维管理平台 同创永益IStorMDR容灾运维管理平台是稳敏双态下专业的一体化灾备管理解决方案。满足容灾演练过程流程化管理,实现切换过程自动化,结合全局视角的可视化指挥视图,形成统一的灾备管理工作支撑平台。
深信服终端安全管理系统SaaS-EDR 深信服终端安全管理系统SaaS-EDR,基于AI与大数据分析技术,能够快速对恶性病毒变种进行检测,实现病毒快速、无损修复,原文件可继续使用。提供实现预防、防御、检测与响应的4-6-6三层立体防护,为终端提供全面、实时、快速、有效的安全防护能力,让勒索病毒无所遁形,保护组织终端业务安全。
斗象智能安全APIE安全之眼监测系统 API安全之眼监测系统(Application Programming Interface Eye,简称APIE)是一款以数据安全为核心的API安全监测分析系统,帮助企业实现API资产的梳理、基于行业分类分级要求下识别API的敏感数据、发现API安全攻击事件和数据安全事件。
云盒子金融保险云文档管理方案 云盒子金融保险云文档管理方案,从数据源头加密及全生命周期的保护,集中存储管控。打造安全、高效、合规的文档交换平台。
腾讯Cloud Base云开发 云开发(Tencent CloudBase,TCB)是云端一体化的后端云服务 ,采用 serverless 架构,免去了移动应用构建中繁琐的服务器搭建和运维。
斑马Zebra ZR100系列移动打印机 ZR100系列移动打印机是一款能够同时打印收据和标签的入门级打印机,非常灵活,足以满足您的各种打印需求。

甄选10000+数字化产品 为您免费使用

申请试用