美团 LongCat

美团LongCat-Flash-Lite

美团LongCat-Flash-Lite是美团于2026年2月开源的轻量化MoE大模型，总参数68.5B、激活2.9B-4.5B，以极低推理成本在Agent工具调用和代码生成场景表现亮眼。

选择供应商品牌主页

💬

由 美团 LongCat 提供

💬 对话与文本生成付费API

美团LongCat-Flash-Lite于2026年2月6日正式发布并开源，是LongCat系列的轻量化版本。模型总参数量685亿（68.5B），每次推理仅激活29亿至45亿参数（2.9B-4.5B），采用创新的N-gram Embedding架构在MoE正交维度上扩展参数空间，以更小的激活参数实现接近更大模型的性能表现。LongCat-Flash-Lite专为边缘部署和高并发场景设计，单卡即可流畅推理，在Agent工具调用、代码生成等关键场景中与同规模模型相比具有明显优势。模型已全面开源，为资源受限的中小企业和开发者提供了高质量的低成本AI选择。

📋 技术规格

厂商	美团 LongCat
模型分类	对话与文本生成
参数规模	68.5B (MoE, 激活2.9B-4.5B)
上下文窗口	未公开
最大输出	未公开
知识截止	未公开

💪 技术优势与差异化

极低激活参数推理成本低
N-gram Embedding架构创新
单卡和端侧可部署
MIT开源许可

⚠️ 使用局限与注意事项

总参数68.5B仍需较大存储
生态和文档完善度不及头部开源模型
复杂推理能力有限

👥 适用人群与企业

移动应用开发者、电商运营团队、IoT硬件厂商、成本敏感型中小企业

📊 基准测试表现

Agent工具调用（同规模）	领先

🔧 技术架构解析

architecture	MoE + N-gram Embedding
training_compute	国产算力集群
key_features	['N-gram Embedding参数扩展', '极低激活参数', '单卡可推理']

⚔️ 美团LongCatLongCat-Flash-Lite 与同梯队主流模型对比

相比同规模轻量模型（如Qwen-7B、Phi-3-mini），LongCat-Flash-Lite在Agent工具调用场景表现更优；相比更小的稠密模型，激活参数虽略多但综合能力更强。

🏆 真实使用案例

📌 某移动应用使用LongCat-Flash-Lite做端侧AI助手

应用场景：在手机端本地运行AI对话和智能问答功能，日活用户50万

实际效果：端侧响应延迟低于800ms，云端API成本降低85%

单设备内存占用<4GB，日均节省云成本约70%

📌 某电商团队基于LongCat-Flash-Lite构建商品文案生成

应用场景：日均生成商品描述1万条，覆盖服饰、3C、家居等品类

实际效果：文案通过率提升18%，人工改写率下降至12%

单条文案生成成本<0.01元，吞吐量500条/分钟

📌 某IoT厂商在智能硬件中部署LongCat-Flash-Lite

应用场景：智能音箱和家居控制器的语音指令理解与执行

实际效果：指令识别准确率达94%，离线场景可用性显著提升

设备端推理延迟<500ms，无需联网即可运行核心功能

💬 用户真实评价

移动端开发者

⭐⭐⭐⭐⭐

68.5B总参但激活不到5B，在中端手机上能流畅运行，是端侧AI部署的优质选择。

📈 端侧延迟<800ms，内存<4GB

电商运营

⭐⭐⭐⭐⭐

商品文案生成的成本极低，单条不到1分钱，质量已经能满足基础发布需求。

📈 单条成本<0.01元，日均1万条

IoT工程师

⭐⭐⭐⭐⭐

N-gram Embedding架构让小激活参数也能有不错的表现，适合资源受限的硬件部署。

📈 设备端推理<500ms

🌐 行业落地洞察

LongCat-Flash-Lite代表了轻量化大模型在端侧和IoT场景的落地趋势。N-gram Embedding创新架构为参数效率优化提供了新思路，对推动AI能力下沉到边缘设备具有重要意义。在移动应用、电商和智能硬件等成本敏感型场景中，该模型的性价比优势明显。

✅ 最佳实践建议

端侧部署建议量化至INT8，可进一步压缩至3GB以内内存占用

高并发场景建议开启batch推理，单卡可支撑数十路并发请求

N-gram Embedding对短文本理解有优势，适合指令类和问答类任务

生产环境建议配合缓存策略，对相似输入复用历史结果以降低调用量

❓ 常见问题解答

Q: LongCat-Flash-Lite能在手机上运行吗？

A: 可以，2.9B-4.5B的激活参数使其可在中端手机上流畅运行，建议配合INT8量化使用。

Q: LongCat-Flash-Lite与LongCat-Flash-Chat的区别？

A: Flash-Lite是更轻量的版本（68.5B vs 560B），激活参数更少，适合端侧和成本敏感场景；Flash-Chat能力更强，适合需要更高质量对话的场景。

Q: N-gram Embedding是什么技术？

A: 是LongCat创新的一种参数扩展方式，在MoE正交维度上通过N-gram token组合扩展embedding空间，提升参数利用效率。

美团LongCat-Flash-Lite

📋 技术规格

💪 技术优势与差异化

⚠️ 使用局限与注意事项

👥 适用人群与企业

📊 基准测试表现

🔧 技术架构解析

⚔️ 美团LongCatLongCat-Flash-Lite 与同梯队主流模型对比

🏆 真实使用案例

📌 某移动应用使用LongCat-Flash-Lite做端侧AI助手

📌 某电商团队基于LongCat-Flash-Lite构建商品文案生成

📌 某IoT厂商在智能硬件中部署LongCat-Flash-Lite

💬 用户真实评价

🌐 行业落地洞察

✅ 最佳实践建议

❓ 常见问题解答

热门大模型

相关大模型

数字化产品

数字化社区

AI广场

关于我们

热门产品

友情链接