BigScience是一个开放式的国际研究协作项目,由Hugging Face、法国国家信息与自动化研究所(INRIA)等机构于2021年发起,汇聚全球数百名研究者协作训练大规模多语言模型。BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)是项目的核心成果,拥有1760亿参数,支持46种语言和13种编程语言,是当时规模较大的开源多语言模型。BLOOM的权重、训练代码和数据集完全开放,为全球研究者提供了可复现的大规模模型基座。BigScience开创了大规模开放协作训练大模型的范式,其数据治理、负责任AI许可(RAIL)等方法论深刻影响了后续开源AI生态,是多语言AI民主化的里程碑,为低资源语言社区提供了此前难以获得的先进AI能力。