BGE(BAAI General Embedding)是由智源研究院(Beijing Academy of Artificial Intelligence,BAAI)研发的通用向量嵌入模型系列,是中国在文本嵌入技术领域最具国际影响力的开源项目之一。智源研究院是北京市支持成立的人工智能新型研发机构,由清华大学、北京大学、中国科学院等多家顶尖学术机构联合组建,是中国AI基础研究的重要战略科技力量。BGE系列包括BGE-base(1024维度)、BGE-large(1024维度)、BGE-m3(多语言、多粒度、多功能嵌入模型)等多个版本,在MTEB(Massive Text Embedding Benchmark)全球排行榜上长期位居前列,特别是BGE-m3支持超过100种语言的向量化,且同时支持密集检索(Dense Retrieval)、稀疏检索(Sparse Retrieval)和多向量检索(Multi-Vector Retrieval),是全球功能最完整的开源嵌入模型之一。BGE模型广泛应用于RAG(检索增强生成)、语义搜索、问答系统、文档聚类、推荐系统等场景,其高质量的中文向量化能力特别适合国内企业的AI知识库建设。BGE完全开源(权重+训练代码+数据集),在Hugging Face上的累计下载量超过5000万次,是全球使用最广泛的中文嵌入模型。智源研究院还发布了AltDiffusion(开源文生图模型)、Emu(多模态生成模型)、CogVideo(文生视频模型)等多个有重要影响力的开源AI项目,是中国AI「开源创新」的重要力量。其发布的《人工智能创新发展白皮书》等研究报告为全球AI治理提供了重要的中国视角。