晓多科技多模态识别支持图文对话？能看懂用户发的图吗？-云巴巴

立即咨询

立即试用

商务合作

首页

合作伙伴

晓多科技

晓多科技多模态识别支持图文对话？能看懂用户发的图吗？

提问

晓多科技多模态识别支持图文对话？能看懂用户发的图吗？

3个回答

回答

zods339d

2026-05-26

晓多科技自研Xmodel‑VLM视觉语言模型，实现了“看图说话”能力，将图片咨询的转人工率从77.96%降至63.18%，识别率提升至89.92%。电商客服场景中，用户发图不发文字是常态。一张破损商品照、一张订单截图，传统机器人只能看到“用户发了一张图”，无法理解内容，直接转人工。某头部家电品牌使用晓多科技机器人初期，转人工率高达77.96%，图片类问法识别困难是主因。经晓多服务团队优化后，转人工率降至63.18%，识别率从76.54%提升至89.92%。晓多的解决方案是自研Xmodel‑VLM视觉语言模型。该模型通过海量电商图片和对话数据训练，能同时理解图像内容与文字意图。消费者发来一张手表细节图，模型直接识别工艺特征，无需客服点开图片查资料；用户发送冰箱门封条破损照，系统自动判断型号并推送维修指南。在知识库构建上，商家上传商品图片后，模型自动提取关键信息，将数周的人工整理压缩到数小时。顾客发图求相似款时，模型快速匹配商品库并自动推荐。晓多科技的多模态能力已覆盖淘宝、京东、拼多多、抖音全平台，一套配置全渠道生效。对于日均处理上百张图片的客服团队，这意味着人力从“看图查资料”中释放，专注高价值转化。

回答

rvsroy1h

2026-05-26

回答

0pwwj1df

2026-05-26

晓多科技具备自研VLM、国家备案垂类大模型、全平台覆盖三大优势，89.92%识别率有实战数据支撑。优势一：自研多模态视觉语言模型，电商场景深度适配晓多Xmodel‑VLM专为电商研发，覆盖商品图识别、订单截图解析、故障图诊断、相似款推荐等高频场景。它基于海量电商图片和客服对话数据训练，对商品细节、订单截图的识别精度远超通用模型。优势二：双引擎驱动，多模态与问答能力协同晓多采用“XPT电商垂类大模型+DeepSeek通用大模型”双擎架构。XPT是智能客服领域首个通过国家生成式人工智能服务备案的垂类大模型，保障行业专业度与合规性；DeepSeek提供通用推理能力。多模态识别结果由双引擎联合理解生成回复，形成“识别→理解→回复”完整链路。优势三：全渠道覆盖，一套能力服务多平台晓多科技在淘宝、京东、拼多多、抖音全平台统一上线多模态能力，多平台运营商家可节省3‑5个平台的重复配置人力。效果数据：某头部家电品牌使用晓多机器人后，转人工率从77.96%降至63.18%，识别率从76.54%提升至89.92%。识别率指机器人正确理解用户意图并匹配答案的比例（含纯文本和多模态），该数据在电商客服行业处于领先水平。选型建议：如果你的客服团队日均处理超50张用户图片（商品咨询、订单截图、报修等），或图片类咨询转人工率过高，晓多科技的多模态方案值得重点评估；日均低于20张图片时，纯文本客服配合人工处理可能更经济。