Nature Biomedical Engineering · January 2026
A Visually Grounded Language Model
for Fetal Ultrasound Understanding
Xiaoqing Guo1,2 · Mohammad Alsharid2 · He Zhao2 · Yipei Wang2
Jayne Lander2 · Aris T. Papageorghiou2 · J. Alison Noble2
1 Hong Kong Baptist University · 2 University of Oxford
DOI: 10.1038/s41551-025-01578-3
Outline
Background · 1/2
Background · 2/2
成为一名合格的超声医生需要3-5 年的专业培训,且学习曲线陡峭。
中低收入国家(LMICs)严重缺乏有经验的超声医生,导致可避免的围产期死亡。
同一患者的检查结果可能因操作者不同而产生显著差异,影响诊断一致性。
Problem Statement
BiomedCLIP、LLaVA-Med、Med-Flamingo 等现有医学 VL 模型均面向静态图像设计,无法利用超声视频中的时序信息。
现有方法多是"扫完后"生成报告,而非扫描过程中实时交互。临床场景需要的是"边扫边看"的实时理解。
Dataset · 1/2
Dataset · 2/2
Challenge · 1/2
超声医生在扫描时说的话大量与图像无关——闲聊、教学、行政讨论等。直接用所有语音做对齐会让模型学到错误的视觉-语言关联。
构建 Anatomy Vocabulary Filter(解剖词汇过滤器),仅保留包含胎儿超声专业词汇的句子进行对齐。
Challenge · 2/2
⚠️ WhisperX 的时间戳粗粒度,语音与画面存在 2-5 秒偏差
ASR 系统(WhisperX)提供的时间戳不够精确。医生说"左心室"时,画面可能还停留在上一个解剖结构上,导致错误的图像-文本配对。
提出 Context Label Correction(上下文标签校正)——利用周围帧的视觉相似度,自适应地逐步修正对齐标签。
Innovation · 1/2
基于胎儿超声专业知识和临床指南,构建覆盖五大类别的词汇表:
仅保留包含至少一个词汇表关键词的句子,大幅减少噪声标签,提升对齐质量。
Innovation · 2/2
使用 WhisperX 时间戳作为初始标签,建立粗粒度的视频帧-文本对应关系。
对每个文本标签,计算其周围时间窗口内各帧与当前对齐帧的视觉特征余弦相似度。
每轮训练后,将标签向相似度更高的帧偏移,逐步收敛到更准确的时间位置。
当标签位置变化小于阈值时停止修正,避免过度调整。
随着训练进行,对齐标签准确率持续提升
Architecture · 1/3
Lcoarse = −log
exp(v·t+/τ)
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
Σ exp(v·t/τ)
正样本对(匹配的视频-文本)拉近,负样本对拉远
每段视频配对其对应的文本描述,在 batch 内构建负样本,进行 InfoNCE 对比学习。
Architecture · 2/3
Architecture · 3/3
Training Strategy
Evaluation · 1/4
给定一段超声视频帧,模型需要判断画面中包含哪个解剖结构——无需任何标注数据重新训练。
| 方法 | Top-1 Acc. | Top-3 Acc. |
|---|---|---|
| BiomedCLIP | 45.2% | 68.7% |
| CLIP (ViT-B/32) | 38.1% | 61.3% |
| VideoCLIP | 52.8% | 74.5% |
| Sonomate | 78.6% | 92.1% |
Evaluation · 2/4
针对单帧超声图像的自然语言问答。
针对整段超声视频的时序推理问答。
Evaluation · 3/4
逐一移除 Sonomate 的关键组件,验证每个设计的有效性:
| 配置 | Zero-shot Acc. | Δ |
|---|---|---|
| Full Sonomate | 78.6% | - |
| − Anatomy Filter | 65.2% | −13.4 |
| − Label Correction | 68.9% | −9.7 |
| − Fine Alignment | 71.4% | −7.2 |
| − Coarse Alignment | 62.1% | −16.5 |
Evaluation · 4/4
在低分辨率、高噪声、有伪影的视频上,Sonomate 的性能下降仅 3-5%,展现良好的鲁棒性。
Robust在 7 位不同经验水平医生的数据上,性能标准差小于 4%,表明模型对操作者风格不敏感。
Generalizable在早、中、晚孕数据上表现一致,跨孕期的性能迁移损失 < 5%。
ConsistentClinical Application
Limitations
525 段视频对深度学习而言仍属中小规模。扩展到多中心、多设备、多人群的数据将进一步提升泛化性。
目前仅支持英语语音转录。多语言扩展(中文、西班牙语等)是下一步工作。
当前模型主要面向正常解剖结构的理解,对罕见异常的检测能力有待验证和加强。
尚未进行前瞻性临床试验。真实临床环境中的效用和安全性需要进一步评估。
Significance
首个面向胎儿超声视频的视觉语言基础模型,填补了医学 VL 领域的重要空白。
Anatomy Vocabulary Filter 和 Context Label Correction 是可推广的方法,适用于其他医学影像领域。
有望降低全球超声筛查门槛,特别是在医疗资源匮乏的地区。
发表在 Nature Biomedical Engineering,标志着医学影像基础模型从静态图像走向动态视频的重要里程碑。
Future Directions
Summary
Xiaoqing Guo · Mohammad Alsharid · He Zhao · Yipei Wang
Jayne Lander · Aris T. Papageorghiou · J. Alison Noble
Hong Kong Baptist University · University of Oxford
Questions & Discussion