美团LongCat-Flash-Lite于2026年2月6日正式发布并开源,是LongCat系列的轻量化版本。模型总参数量685亿(68.5B),每次推理仅激活29亿至45亿参数(2.9B-4.5B),采用创新的N-gram Embedding架构在MoE正交维度上扩展参数空间,以更小的激活参数实现接近更大模型的性能表现。LongCat-Flash-Lite专为边缘部署和高并发场景设计,单卡即可流畅推理,在Agent工具调用、代码生成等关键场景中与同规模模型相比具有明显优势。模型已全面开源,为资源受限的中小企业和开发者提供了高质量的低成本AI选择。
📋 技术规格
| 厂商 | 美团 LongCat |
|---|---|
| 模型分类 | 对话与文本生成 |
| 参数规模 | 68.5B (MoE, 激活2.9B-4.5B) |
| 上下文窗口 | 未公开 |
| 最大输出 | 未公开 |
| 知识截止 | 未公开 |
💪 技术优势与差异化
- 极低激活参数推理成本低
- N-gram Embedding架构创新
- 单卡和端侧可部署
- MIT开源许可
⚠️ 使用局限与注意事项
- 总参数68.5B仍需较大存储
- 生态和文档完善度不及头部开源模型
- 复杂推理能力有限
👥 适用人群与企业
移动应用开发者、电商运营团队、IoT硬件厂商、成本敏感型中小企业
📊 基准测试表现
| Agent工具调用(同规模) | 领先 |
|---|
🔧 技术架构解析
| architecture | MoE + N-gram Embedding |
|---|---|
| training_compute | 国产算力集群 |
| key_features | ['N-gram Embedding参数扩展', '极低激活参数', '单卡可推理'] |
⚔️ 美团LongCatLongCat-Flash-Lite 与同梯队主流模型对比
相比同规模轻量模型(如Qwen-7B、Phi-3-mini),LongCat-Flash-Lite在Agent工具调用场景表现更优;相比更小的稠密模型,激活参数虽略多但综合能力更强。
🏆 真实使用案例
📌 某移动应用使用LongCat-Flash-Lite做端侧AI助手
📌 某电商团队基于LongCat-Flash-Lite构建商品文案生成
📌 某IoT厂商在智能硬件中部署LongCat-Flash-Lite
💬 用户真实评价
68.5B总参但激活不到5B,在中端手机上能流畅运行,是端侧AI部署的优质选择。
商品文案生成的成本极低,单条不到1分钱,质量已经能满足基础发布需求。
N-gram Embedding架构让小激活参数也能有不错的表现,适合资源受限的硬件部署。
🌐 行业落地洞察
LongCat-Flash-Lite代表了轻量化大模型在端侧和IoT场景的落地趋势。N-gram Embedding创新架构为参数效率优化提供了新思路,对推动AI能力下沉到边缘设备具有重要意义。在移动应用、电商和智能硬件等成本敏感型场景中,该模型的性价比优势明显。








首页 





