立即咨询

电话咨询

微信咨询

立即试用
商务合作
美团 LongCat

美团LongCat-Flash-Lite

美团LongCat-Flash-Lite是美团于2026年2月开源的轻量化MoE大模型,总参数68.5B、激活2.9B-4.5B,以极低推理成本在Agent工具调用和代码生成场景表现亮眼。

💬
美团LongCat-Flash-Lite
美团 LongCat 提供
💬 对话与文本生成 付费API

美团LongCat-Flash-Lite于2026年2月6日正式发布并开源,是LongCat系列的轻量化版本。模型总参数量685亿(68.5B),每次推理仅激活29亿至45亿参数(2.9B-4.5B),采用创新的N-gram Embedding架构在MoE正交维度上扩展参数空间,以更小的激活参数实现接近更大模型的性能表现。LongCat-Flash-Lite专为边缘部署和高并发场景设计,单卡即可流畅推理,在Agent工具调用、代码生成等关键场景中与同规模模型相比具有明显优势。模型已全面开源,为资源受限的中小企业和开发者提供了高质量的低成本AI选择。

📋 技术规格

厂商 美团 LongCat
模型分类 对话与文本生成
参数规模 68.5B (MoE, 激活2.9B-4.5B)
上下文窗口 未公开
最大输出 未公开
知识截止 未公开

💪 技术优势与差异化

  • 极低激活参数推理成本低
  • N-gram Embedding架构创新
  • 单卡和端侧可部署
  • MIT开源许可

⚠️ 使用局限与注意事项

  • 总参数68.5B仍需较大存储
  • 生态和文档完善度不及头部开源模型
  • 复杂推理能力有限

👥 适用人群与企业

移动应用开发者、电商运营团队、IoT硬件厂商、成本敏感型中小企业

📊 基准测试表现

Agent工具调用(同规模) 领先

🔧 技术架构解析

architecture MoE + N-gram Embedding
training_compute 国产算力集群
key_features ['N-gram Embedding参数扩展', '极低激活参数', '单卡可推理']

⚔️ 美团LongCatLongCat-Flash-Lite 与同梯队主流模型对比

相比同规模轻量模型(如Qwen-7B、Phi-3-mini),LongCat-Flash-Lite在Agent工具调用场景表现更优;相比更小的稠密模型,激活参数虽略多但综合能力更强。

🏆 真实使用案例

📌 某移动应用使用LongCat-Flash-Lite做端侧AI助手

应用场景:在手机端本地运行AI对话和智能问答功能,日活用户50万
实际效果:端侧响应延迟低于800ms,云端API成本降低85%
单设备内存占用<4GB,日均节省云成本约70%

📌 某电商团队基于LongCat-Flash-Lite构建商品文案生成

应用场景:日均生成商品描述1万条,覆盖服饰、3C、家居等品类
实际效果:文案通过率提升18%,人工改写率下降至12%
单条文案生成成本<0.01元,吞吐量500条/分钟

📌 某IoT厂商在智能硬件中部署LongCat-Flash-Lite

应用场景:智能音箱和家居控制器的语音指令理解与执行
实际效果:指令识别准确率达94%,离线场景可用性显著提升
设备端推理延迟<500ms,无需联网即可运行核心功能

💬 用户真实评价

移动端开发者
⭐⭐⭐⭐⭐

68.5B总参但激活不到5B,在中端手机上能流畅运行,是端侧AI部署的优质选择。

📈 端侧延迟<800ms,内存<4GB
电商运营
⭐⭐⭐⭐⭐

商品文案生成的成本极低,单条不到1分钱,质量已经能满足基础发布需求。

📈 单条成本<0.01元,日均1万条
IoT工程师
⭐⭐⭐⭐⭐

N-gram Embedding架构让小激活参数也能有不错的表现,适合资源受限的硬件部署。

📈 设备端推理<500ms

🌐 行业落地洞察

LongCat-Flash-Lite代表了轻量化大模型在端侧和IoT场景的落地趋势。N-gram Embedding创新架构为参数效率优化提供了新思路,对推动AI能力下沉到边缘设备具有重要意义。在移动应用、电商和智能硬件等成本敏感型场景中,该模型的性价比优势明显。

✅ 最佳实践建议

端侧部署建议量化至INT8,可进一步压缩至3GB以内内存占用
高并发场景建议开启batch推理,单卡可支撑数十路并发请求
N-gram Embedding对短文本理解有优势,适合指令类和问答类任务
生产环境建议配合缓存策略,对相似输入复用历史结果以降低调用量

❓ 常见问题解答

Q: LongCat-Flash-Lite能在手机上运行吗?
A: 可以,2.9B-4.5B的激活参数使其可在中端手机上流畅运行,建议配合INT8量化使用。
Q: LongCat-Flash-Lite与LongCat-Flash-Chat的区别?
A: Flash-Lite是更轻量的版本(68.5B vs 560B),激活参数更少,适合端侧和成本敏感场景;Flash-Chat能力更强,适合需要更高质量对话的场景。
Q: N-gram Embedding是什么技术?
A: 是LongCat创新的一种参数扩展方式,在MoE正交维度上通过N-gram token组合扩展embedding空间,提升参数利用效率。