大模型带火数据训练,腾讯云向量数据库重磅发布!

来源: 云巴巴 2024-03-27 10:41:26

AI 技术不断向前发展,一个核心驱动因素,就是背后的存储、处理和分析大量数据所需要的强大基础设施也在不断发生进步。这波“新基建”浪潮也催生出又一颗冉冉升起的新星——向量数据库,一种用于管理非结构化数据,包括数字形式的文本、音频、图像和视频的强大解决方案。

可以说大模型数据训练需求的催化,让向量数据库愈发红火。

大模型的出现给人工智能带来了新的计算范式 —— the CVP Stack。其中,“C”代表大模型( ChatGPT 等 ),负责向量计算;“V”代表向量数据库( Vector Database ),负责向量存储;“P”代表 Prompt 工程,负责向量交互。

随着大模型技术的发展,向量数据库将在 AI 时代扮演极为重要的角色。它可以最大限度地发挥大模型威力的同时保护数据隐私,实现更丰富的智能应用。

icon大模型引发爆发增长的向量数据库

当我们见到一个熟悉的人的时候,大脑是这样思考的:首先,眼睛中的视杆细胞和视锥细胞记录下光的强度。这些信号传递到位于你大脑后方的视觉皮层,在皮层中数以百万计的神经元以不同的强度被激活。激活信号传输到你的颞叶,你的大脑解释为:我看到了某某。

尽管大模型呈现出的形式是端到端、文本输入输出的,但实际模型接触和学习的数据并不是文本本身,而是向量化的文本。想要按这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。

过往,承担数据组织的是传统关系型数据库,但它更适合用来应对结构化的数据。大模型和神经网络,更多面对的是海量的非结构化数据,比如文本、音频、视频、关系等。

把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。

它被广泛地用于大模型训练、推理和知识库补充等场景:

支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效;

通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。

……

简而言之,如果大模型是一个智能的处理器,那向量数据库就是配合这台处理器的”外置缓存"。

icon腾讯云向量数据库重磅发布

与传统数据库不同,向量数据库特别擅长从非结构化数据中提取见解。这些数据库使用向量嵌入来表示数值型数据,并将其排列在彼此相似的一个个聚类当中,能够帮助用户使用相似对象查询数据库,从而轻松比较并找出最适合的匹配项。向量搜索的另一个优势就是这类查询延迟更低,特别适合生成式 AI 应用。

企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023年4月的AI投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate等向量数据库初创公司都在这个月获得了融资。

近日,腾讯云发布了国内首个AI原生的向量数据库,它最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。

针对大模型场景,它在接入层、计算层、存储层实现了全面AI化:

在接入层,智能化支持自然语言文本的直接检索;

在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从一个月缩短到3天;

在存储层,融合智能压缩算法,把向量存储成本降低50%。

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗,相比传统方式可以实现10倍效率的提升。

如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2~4个数量级。

其实,腾讯云向量数据库经历了鹅厂内部业务的长期锤炼:

覆盖腾讯视频、QQ浏览器、QQ音乐等上百个业务场景,每日调用量超千亿次;

支撑QQ音乐人均听歌时长提升3.2%,QQ浏览器成本降低37.9%,腾讯视频有效曝光人均时长提升1.74%;

向量化能力(embedding)多次获得权威机构认可,曾登顶MS MARCO榜单第一。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

基于腾讯云数据库构建商品加工引擎,管理近10亿商品数据

基于腾讯云数据库构建商品加工引擎,管理近10亿商品数据

商品加工引擎是腾讯基于云原生打造的高可用、可扩展、灵活配置的商品处理引擎,融合商品接入、商品加工、商品存储、商品分发、链路监控、商品对账等核心能力,支持近十亿的商品管理和加工,以及腾讯多个核心应用场景。

2022-03-03 09:45:49

为什么分布式数据库忽然就火了呢

为什么分布式数据库忽然就火了呢

提起“科技”一词,大家都不会感到陌生,它存在我们生活中的点点滴滴,时时刻刻改变着我们的思想和生活方式! 那么在众多的科技产品中,为什么分布式数据库忽然就火了呢。 最近关于分布式数据库的讨论热度确实挺高,小编我也忍不住来说两句。 但可能有些人会疑惑,分布

2022-11-22 15:54:27

数据库有问必答|RDS PostgreSQL 采用的AliPG有哪些方面的优势?

数据库有问必答|RDS PostgreSQL 采用的AliPG有哪些方面的优势?

阿里云支持一系列兼容PostgreSQL的云数据库服务产品,目前包括RDS PostgreSQL和专属集群MyBase for PostgreSQL,这些云数据库服务采用统一的数据库内核(简称AliPG),相比开源版本PostgreSQL优势如下

2021-12-16 13:09:38

关于云数据库,你必须要知道的事

关于云数据库,你必须要知道的事

随着我们生活质量的提高,可以公正的断言,是科学和技术在很大程度上塑造了人类的现代生活,其中,云数据库的建立更是为我们的生活添砖加瓦。     首先,我们先来了解一下云数据的概念,云数据库是指,被优化或部署到一个虚拟计算环境中的数据库,

2020-04-28 17:02:40

阿里云,持续领跑中国关系型数据库!

阿里云,持续领跑中国关系型数据库!

关系型数据库作为主流产品,占据了超过60%的市场份额

2022-02-23 11:08:12

热璞数据库HotDB助力南京市民卡数字化转型成功

热璞数据库HotDB助力南京市民卡数字化转型成功

全球数字化背景下,数字经济建设正在稳步快速的发展。数字经济的不断创新及国家政策的不断推动,其核心价值是:“最大化将数据面向民生领域开放和应用”,使数字技术更好的融入到民生建设中,真正做到服务为民、方便为民。也是数字企业要共同承担的社会责任。

2020-02-11 10:55:01

严选云产品

好会计—发票管理 好会计,全流程支持发票电子化。
客套CRM客户管理系统 客套CRM客户管理系统,是一款可以找客户、触达客户、管理客户的智能CRM。三大运营商深度合作,为电销团队提供高效稳定的外呼服务。支持多种发送场景:批量发送、定时发送、通话结束发送等。支持电脑端、手机端多端使用,适用各类业务场景,客户信息留存更便捷。
腾讯云点播微短剧行业解决方案 腾讯云点播微短剧行业解决方案,平台搭建分秒必争,要求“低开发、快上线”。最快1小时内接入完成。DRM、防盗链Key、私有加密;保护短剧版权,杜绝盗链/盗播,海量用户同时观看不卡顿,提供极致的播放体验。 精细化运营,智能生命周期管理、智能降码/降冷。
安恒明御主机安全及管理系统EDR 明御主机安全及管理系统EDR是一款集成了丰富的系统加固与防护、网络加固与防护等功能的主机安全产品。业界独有的高级威胁模块,专门应对攻防对抗场景; EDR通过自主研发的专利级文件诱饵引擎,有着业界领先的勒索专防专杀能力;通过内核级东西向流量隔离技术,实现网络隔离与防护;拥有补丁修复、外设管控、文件审计、违规外联检测与阻断等主机安全能力。
万户软件政务数字办公服务一体化解决方案 万户软件政务数字办公服务一体化解决方案,按照“大平台、大数据、大系统”的建设思路,实现业务及数据互联互通。有效解决了条块分割、信息孤岛、重复建设、互不兼容等难题,对政务办公业务平台产生的业务数据进行智能化分析和处理,深度融合AI技术,实现政务办公业务智慧化。
销售易销售云平台 销售易CRM运用云,社交,移动,大数据和人工智能等新技术,为企业提供全流程自动化销售管理服务.销售易CRM将企业同客户互动的全过程数字化,智能化,帮企业实现可持续的业绩增长。

甄选10000+数字化产品 为您免费使用

申请试用