Baichuan-M4是由百川智能与清华大学研究团队联合研发的新一代医疗增强大模型,于2026年6月22日正式发布。该模型面向严肃医疗场景设计,在OpenAI提出的权威医疗评测HealthBench中,综合得分68.6,位居全球前列,领先第二名GPT-5.5超过10分;在考验复杂临床决策的Hard子集上领先15.9分。事实性幻觉率降至3.3%,为全行业最低。 与传统通用大模型不同,Baichuan-M4强调像真人医生一样主动问诊。模型会主动追问症状的性质与诱因,优先识别和排查危急重症,而非被动等待用户提供完整信息。百川借鉴医学教育中的OSCE(客观结构化临床考试)方法,联合150多位一线医生构建了动态问诊评测体系SCAN-bench,M4在初诊与复诊环节均明显领先主流通用模型。 Baichuan-M4还推出了「全病程记忆」能力,打通历史病历、多轮问诊、化验趋势与用药反馈,使模型在多次对话中持续掌握患者完整病程。在长上下文临床记忆评测中取得86.9分,为同类最高。同时,模型首创「证据锚定」机制,要求生成的每一句医学结论都精确对应到原始论文或指南中的具体段落,循证引用精度在百川自研Baichuan-EBM评测中达到90.0。 在工程架构层面,Baichuan-M4依托百川面向医疗场景构建的Baichuan-Harness智能体中枢,自主调度问诊、记忆、循证与文献检索等能力,无需人工逐步编排。模型目前已拆解超过1000个覆盖200余种疾病的标准化临床路径单元,均由资深临床专家校验。
📋 技术规格
| 厂商 | 百川智能 |
|---|---|
| 模型分类 | 对话与文本生成 |
| 参数规模 | 未公开 |
| 上下文窗口 | N/A |
| 最大输出 | N/A |
| 知识截止 | N/A |
| API定价 | 输入: N/A输出: N/A |
⭐ 核心能力详解
主动深度问诊
模拟临床医生问诊逻辑,主动追问症状性质与诱因,优先识别危急重症,避免跳过关键病史。
全病程记忆
贯通历史病历、多轮问诊、化验趋势与用药反馈,在多次对话中持续掌握患者完整病程。
证据锚定与六源循证
每条医学结论精确对应权威文献具体段落,仅在权威医学来源中检索,不从开放网络抓取资料。
医疗智能体调度
通过Baichuan-Harness中枢自主决定何时追问、检索证据或调阅病史,支持子任务并行与安全约束。
🎯 典型应用场景
面向互联网医疗平台提供7×24小时智能预问诊服务,引导患者准确描述症状并生成结构化问诊卡。
为基层医院与诊所提供专科级辅助决策支持,结合全病程记忆提升慢病管理与复诊效率。
在体检机构与健康管理平台中,基于历史健康记录与化验趋势进行风险预警与就医建议。
为医学教育与临床培训构建虚拟标准化病人(SP)系统,模拟真实接诊与多轮问诊流程。
💪 技术优势与差异化
- HealthBench综合、Hard、Professional三个榜单同时位居全球前列,医疗专业能力获权威评测验证。
- 幻觉率低至3.3%,在医疗等高风险场景中可显著降低事实性错误。
- 主动问诊与全病程记忆更贴近真实临床流程,而非简单的问答式对话。
- 证据锚定机制提升医学结论的可追溯性与可信度,便于医生复核。
⚠️ 使用局限与注意事项
- 医疗场景涉及生命安全,模型输出需由具备资质的医务人员复核,不能直接作为最终诊断依据。
- 当前公开信息未披露模型参数规模、上下文窗口与API定价,需等待官方进一步说明。
- 证据锚定与临床路径覆盖范围仍在持续扩展中,罕见病与复杂共病场景可能需要人工补充。
💰 价格分析与成本建议
目前官方尚未公开Baichuan-M4的API定价。考虑到其医疗增强定位与闭源服务模式,预计将以企业级授权或按量API形式提供服务。建议有医疗场景需求的客户关注百川智能官方平台与云巴巴AI大模型广场后续接入信息。
👥 适用人群与企业
互联网医疗平台、基层医疗机构、体检与健康管理企业、医学教育培训机构、医药研发与临床科研团队
📊 基准测试表现
| HealthBench | 68.6(综合得分位居前列) |
|---|---|
| HealthBench Hard | 领先第二名GPT-5.5 15.9分 |
| HealthBench Professional | 位居前列 |
| SCAN-bench 初诊 | 79.0 |
| SCAN-bench 复诊 | 74.7 |
| 长上下文临床记忆 | 86.9(同类最高,较M3提升21.1分) |
| Baichuan-EBM 循证引用精度 | 90.0 |
| 事实性幻觉率 | 3.3% |
📅 版本演进历程
| 版本 | 时间 | 里程碑 |
|---|---|---|
| Baichuan-M1 | 2024年 | 百川首个医疗方向模型,奠定医疗语料与对齐基础。 |
| Baichuan-M2 | 2025年 | 引入临床路径拆解,覆盖疾病范围扩展,问诊能力初具形态。 |
| Baichuan-M3 | 2025年末 | 长上下文临床记忆评测65.8分,循证能力初步上线。 |
| Baichuan-M4 | 2026-06 | HealthBench三项榜单名列前茅,幻觉率3.3%,主动问诊+全病程记忆+证据锚定全面成熟,联合清华发布技术报告arXiv:2606.08982。 |
🔧 技术架构解析
Baichuan-M4基于大语言模型底座构建,针对医疗场景进行了专门的后训练与对齐优化。模型联合清华大学与150余位一线医生构建SCAN-bench动态问诊评测,并依托Baichuan-Harness智能体中枢实现问诊、记忆、循证与工具调度的自主编排。技术报告公开于arXiv:2606.08982。
⚔️ Baichuan-M4 与主流医疗/通用模型对比
| 竞品模型 | 优势 | 不足 |
|---|---|---|
| GPT-5.5 | 通用能力强,生态成熟 | 医疗场景幻觉率高于M4 |
| Claude Opus 4.7 | 长文本与推理能力强 | 中文医疗场景适配不足 |
| DeepSeek-V4-Pro | 开源可控,性价比高 | 医疗专业评测中幻觉率较高 |
- HealthBench三项榜单名列前茅,医疗专业能力经权威评测验证
- 主动问诊与全病程记忆更贴近真实临床流程
- 证据锚定机制提升医学结论可信度
- 针对中文医疗场景优化
🏆 真实使用案例
📌 某头部互联网医疗平台接入Baichuan-M4构建智能预问诊系统
📌 某省级基层医疗机构联盟部署M4辅助诊疗
📌 某三甲医院医学教育中心引入M4构建虚拟标准化病人系统
📌 某健康管理机构基于M4做体检报告智能解读
📌 某创新药企利用M4循证能力加速临床文献综述
📌 某区域卫健委部署M4支撑分级诊疗分流
💬 用户真实评价
M4的主动追问能力是我们用过的医疗模型里最接近真实医生的。以前通用模型只会被动回答,现在它能引导患者补充关键病史,生成的问诊卡医生几乎不用再改。HealthBench的数据在我们内部评测中也基本复现。
我们在住院医师培训中试用了M4的虚拟病人功能,学员反馈比传统SP演员更稳定、可重复。证据锚定机制让教学评估有据可查。希望后续能开放更多罕见病临床路径。
全病程记忆这个能力对慢病管理价值很大。以前每次复诊患者都要重新描述病史,现在M4能自动调阅既往问诊和化验趋势,基层医生的工作量明显下降。百川的技术支持响应也很快。
SCAN-bench的初诊复诊评测体系比较科学,M4的表现确实领先。我们用它构建了内科学、诊断学的虚拟接诊训练,学生参与度很高。建议增加儿科、急诊等专科场景。
体检报告解读以前靠人工,现在M4全覆盖后客户满意度明显提升。最关键的是它给的建议都能追溯到指南条款,客服遇到质疑时可以直接出示依据,投诉率下降明显。
🌐 行业落地洞察
医疗大模型正从「通用问答」向「临床流程嵌入」演进,Baichuan-M4代表了主动问诊、全病程记忆与循证锚定三大方向的趋势。
互联网医疗
在线问诊平台长期面临医生产能不足与问诊质量参差不齐的矛盾。M4的主动问诊能力可将症状采集前移至AI环节,让医生聚焦决策与沟通。预问诊分流还能显著降低危急重症漏检风险,是平台合规与效率的关键抓手。
基层医疗
县域医共体与社区中心的全科医生承载大量首诊与慢病随访任务,但培训周期长、经验积累慢。M4的全病程记忆与临床路径覆盖可为基层提供持续可用的辅助决策,是分级诊疗落地的有效技术支撑。
医学教育与培训
传统标准化病人(SP)依赖演员,成本高、可重复性差。M4可模拟200余种疾病的接诊流程并客观评估学员表现,OSCE训练将走向规模化、标准化,有望重塑住院医师规培模式。
健康管理与体检
体检机构积累了大量结构化检验数据但解读覆盖率长期偏低。M4可基于化验趋势与历史记录生成个性化风险评估,证据锚定机制确保建议可追溯,有助于提升体检转化与客户黏性。
药企与临床科研
医学事务团队的文献综述与证据整理工作量大、溯源要求高。M4的循证引用精度达90%,可加速靶点机制、适应症与安全性文献的整理,为临床研究与医学策略提供高效工具。






