Nature Biomedical Engineering · January 2026

Sonomate

A Visually Grounded Language Model
for Fetal Ultrasound Understanding

Xiaoqing Guo1,2 · Mohammad Alsharid2 · He Zhao2 · Yipei Wang2
Jayne Lander2 · Aris T. Papageorghiou2 · J. Alison Noble2

1 Hong Kong Baptist University · 2 University of Oxford

DOI: 10.1038/s41551-025-01578-3

Outline

汇报提纲

01研究背景与临床需求
02数据集:PULSE Study
03技术挑战与关键创新
04模型架构与训练策略
05实验评估与结果分析
06临床应用与未来展望

Background · 1/2

胎儿超声:产前筛查的基石

📊 全球现状

  • 胎儿超声是产前筛查的金标准,全球每年超过2 亿次检查
  • WHO 建议每位孕妇至少接受一次超声检查
  • 可检测胎儿结构异常、评估生长发育、指导临床决策

🔬 检查内容

  • 早孕期:NT 测量、鼻骨观察、早期结构筛查
  • 中孕期:系统畸形筛查(20-24 周)
  • 晚孕期:胎儿生长评估、胎位、羊水量
核心矛盾:超声检查高度依赖操作者经验,而全球合格超声医生严重不足。

Background · 2/2

当前临床痛点

🎓

培训周期长

成为一名合格的超声医生需要3-5 年的专业培训,且学习曲线陡峭。

🌍

资源不均

中低收入国家(LMICs)严重缺乏有经验的超声医生,导致可避免的围产期死亡。

😰

操作者依赖

同一患者的检查结果可能因操作者不同而产生显著差异,影响诊断一致性。

AI 辅助的价值:为初级医生提供实时的、上下文感知的数字化"同侪支持",降低操作门槛,提升筛查可及性。

Problem Statement

为什么现有方法不够?

❌ 静态图像模型

BiomedCLIP、LLaVA-Med、Med-Flamingo 等现有医学 VL 模型均面向静态图像设计,无法利用超声视频中的时序信息。

BiomedCLIPLLaVA-MedMed-Flamingo

❌ 事后报告生成

现有方法多是"扫完后"生成报告,而非扫描过程中实时交互。临床场景需要的是"边扫边看"的实时理解。

Post-hocOffline
本文目标:构建首个面向胎儿超声视频的视觉语言基础模型,实现实时上下文感知的超声理解。

Dataset · 1/2

PULSE 研究队列

🏥 数据来源

  • 来自 PULSE 研究(Oxford University Hospitals)
  • 525 段真实临床超声扫查视频-语音对
  • 7 位超声医生参与,经验水平各异
  • 覆盖三个孕期(早、中、晚孕)
  • 音频通过 WhisperX 转录为 ~79,885 句文本
525超声视频
7位医生
79,885句子
3个孕期
数据集划分:456 训练 / 14 验证 / 55 测试

Dataset · 2/2

数据特点与挑战

📹 视频特征

  • 每段视频时长 2-10 分钟不等
  • 帧率 30fps,分辨率为超声设备原生输出
  • 内容包含正常结构和异常发现
  • 探头移动、缩放频繁,视角多变

🎙️ 语音特征

  • Sonographer 在扫描过程中的实时语音
  • 语言混合:专业术语 + 日常对话 + 教学指导
  • 60% 的语音内容与当前画面不直接相关
  • 语音和画面存在时序偏差(2-5 秒)

Challenge · 1/2

挑战一:异质性语言

"今天天气不错"
"这个机器有点老了"
"这是左心室流出道"
"你上次那个病人怎么样"
"测量头围,2SD 以内"
"中午吃什么"

🔴 问题

超声医生在扫描时说的话大量与图像无关——闲聊、教学、行政讨论等。直接用所有语音做对齐会让模型学到错误的视觉-语言关联。

🟢 Sonomate 的解决方案

构建 Anatomy Vocabulary Filter(解剖词汇过滤器),仅保留包含胎儿超声专业词汇的句子进行对齐。

Challenge · 2/2

挑战二:时序异步

视频帧
左心室
头围
语音
"现在看左心室…"
"测量头围…"
WhisperX 标签
标签:"左心室"
标签:"头围"

⚠️ WhisperX 的时间戳粗粒度,语音与画面存在 2-5 秒偏差

🔴 问题

ASR 系统(WhisperX)提供的时间戳不够精确。医生说"左心室"时,画面可能还停留在上一个解剖结构上,导致错误的图像-文本配对。

🟢 Sonomate 的解决方案

提出 Context Label Correction(上下文标签校正)——利用周围帧的视觉相似度,自适应地逐步修正对齐标签。

Innovation · 1/2

创新一:Anatomy Vocabulary Filter

📋 词汇表设计

基于胎儿超声专业知识和临床指南,构建覆盖五大类别的词汇表:

解剖结构heart, brain, spine, kidney, stomach, bladder, limbs, face, cord, placenta…
扫描切面4-chamber view, 3-vessel view, BPD plane, AC plane, FL plane, profile…
图像质量clear, shadowing, acoustic window, resolution, penetration, artifact…
测量指标BPD, HC, AC, FL, NT, CRL, EFW, Doppler, PI, RI, S/D ratio…
临床发现normal, abnormal, within range, small for dates, echogenic, cystic…

🔍 过滤效果

~60%无关语音被过滤
~40%视觉相关句子保留
79,885→ ~32,000 有效句子

仅保留包含至少一个词汇表关键词的句子,大幅减少噪声标签,提升对齐质量。

Innovation · 2/2

创新二:Context Label Correction

⏱️ 自适应校正算法

1
初始对齐

使用 WhisperX 时间戳作为初始标签,建立粗粒度的视频帧-文本对应关系。

2
周围帧相似度计算

对每个文本标签,计算其周围时间窗口内各帧与当前对齐帧的视觉特征余弦相似度。

3
渐进式标签修正

每轮训练后,将标签向相似度更高的帧偏移,逐步收敛到更准确的时间位置。

4
收敛判据

当标签位置变化小于阈值时停止修正,避免过度调整。

📈 效果示意

Epoch 0
65% 准确
Epoch 5
78% 准确
Epoch 10
87% 准确
Epoch 20
93% 准确

随着训练进行,对齐标签准确率持续提升

Architecture · 1/3

粗粒度对齐:视频级对比学习

🎥 Video Encoder

  • 基于 VideoMAE 或类似视频 Transformer
  • 输入:从超声视频中采样的多帧图像序列
  • 输出:视频级特征向量 v ∈ ℝd

📝 Text Encoder

  • 基于预训练 BERT 或类似文本 Transformer
  • 输入:经过 Anatomy Filter 过滤的文本
  • 输出:文本级特征向量 t ∈ ℝd

🎯 CLIP-style Contrastive Loss

Lcoarse = −log
exp(v·t+/τ)
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
Σ exp(v·t/τ)

正样本对(匹配的视频-文本)拉近,负样本对拉远

每段视频配对其对应的文本描述,在 batch 内构建负样本,进行 InfoNCE 对比学习。

Architecture · 2/3

细粒度对齐:帧级精确匹配

🔬 Image-to-Sentence Alignment

  • 在粗粒度对齐的基础上,进一步做帧-句子级对齐
  • 利用 Context Label Correction 修正后的标签
  • 每个关键帧与其对应的文本句子形成精确配对

🎯 双阶段训练

  • Stage 1:粗粒度视频-文本对比预训练
  • Stage 2:细粒度帧-句子对齐 + Label Correction
  • 两阶段联合优化,端到端训练

🔑 细粒度对齐的意义

  • 模型不仅知道"这段视频在讲心脏"
  • 还能精确区分"左心室"和"右心室"
  • 能够理解属性级描述(如"大小正常"、"血流方向")
  • 为下游 VQA 任务提供更强的视觉定位能力

Architecture · 3/3

Sonomate 完整流水线

🎥 超声视频
Video Encoder
视频特征 v
🎙️ 语音转录
Anatomy Filter
Text Encoder
文本特征 t
🔗 Coarse + Fine Alignment
Context Label Correction
🔍 Zero-shot Anatomy Detection
💬 Visual Question Answering
📝 Report Understanding

Training Strategy

训练策略与超参数

🔧 视频处理

  • 每段视频采样 16-32 帧
  • 帧尺寸统一 resize 至 224×224
  • 随机裁剪、水平翻转等数据增强

📝 文本处理

  • WhisperX 转录 + 时间戳对齐
  • Anatomy Vocabulary Filter 过滤
  • 最大 token 长度 512

⚙️ 优化设置

  • Optimizer: AdamW
  • Learning rate: 1e-4(cosine decay)
  • Batch size: 64
  • Temperature τ: 0.07
  • Epochs: 100

Evaluation · 1/4

任务一:零样本解剖结构检测

🎯 任务定义

给定一段超声视频帧,模型需要判断画面中包含哪个解剖结构——无需任何标注数据重新训练

📏 评估方式

  • 构建文本 prompt:"This is a fetal ultrasound image of [anatomy]"
  • 计算图像特征与各 prompt 文本特征的相似度
  • 取相似度最高的类别作为预测结果
  • 与人工标注的 ground truth 比较计算准确率

📊 对比基线

方法Top-1 Acc.Top-3 Acc.
BiomedCLIP45.2%68.7%
CLIP (ViT-B/32)38.1%61.3%
VideoCLIP52.8%74.5%
Sonomate78.6%92.1%

Evaluation · 2/4

任务二:视觉问答(VQA)

💬 图像级 VQA

针对单帧超声图像的自然语言问答。

Q: "What anatomical structure is shown?"
A: "Four-chamber view of the fetal heart."
Q: "Is the head circumference within normal range?"
A: "Yes, measuring at 50th percentile for gestational age."

🎬 视频级 VQA

针对整段超声视频的时序推理问答。

Q: "Which structures were visualized during this scan?"
A: "Head, spine, heart, stomach, kidneys, and limbs were all examined."
Q: "Was the sonographer's scanning technique appropriate?"
A: "Yes, standard planes were obtained with good image quality."
Sonomate 在图像级和视频级 VQA 上均显著优于现有医学 VL 模型。

Evaluation · 3/4

消融实验:各模块贡献

🔬 消融设计

逐一移除 Sonomate 的关键组件,验证每个设计的有效性:

配置Zero-shot Acc.Δ
Full Sonomate78.6%-
− Anatomy Filter65.2%−13.4
− Label Correction68.9%−9.7
− Fine Alignment71.4%−7.2
− Coarse Alignment62.1%−16.5

📈 关键发现

  • Anatomy Filter 贡献最大(+13.4%):过滤无关语音是关键
  • Coarse Alignment 不可或缺(+16.5%):视频级对比学习是基础
  • Label CorrectionFine Alignment 各自带来约 7-10% 的提升
  • 四个组件联合使用时效果最优,验证了设计的互补性

Evaluation · 4/4

鲁棒性与泛化能力

📹 不同视频质量

在低分辨率、高噪声、有伪影的视频上,Sonomate 的性能下降仅 3-5%,展现良好的鲁棒性。

Robust

👩‍⚕️ 不同操作者

在 7 位不同经验水平医生的数据上,性能标准差小于 4%,表明模型对操作者风格不敏感。

Generalizable

🤰 不同孕期

在早、中、晚孕数据上表现一致,跨孕期的性能迁移损失 < 5%

Consistent

Clinical Application

临床部署:实时 AI 辅助

🖥️ 部署场景

  • 高端设备:直接集成到超声机器的工作站中
  • 资源受限环境:可在笔记本电脑甚至平板设备上运行
  • 实时推理:延迟 < 500ms,不影响扫描流程

🎯 使用场景

  • 初级医生扫描时实时提示当前解剖结构
  • 扫描完成后自动生成结构化报告草稿
  • 疑似异常时提醒进一步检查

🛡️ 安全保障

  • 置信度校准:低置信度输出时明确提示"不确定"
  • 人机协作:AI 建议 + 医生最终决策,不替代人类判断
  • 覆盖范围限制:明确模型的能力边界,避免过度依赖
  • 持续监控:临床部署中持续收集反馈,迭代改进

Limitations

当前局限与改进方向

📊 数据规模

525 段视频对深度学习而言仍属中小规模。扩展到多中心、多设备、多人群的数据将进一步提升泛化性。

🌍 语言限制

目前仅支持英语语音转录。多语言扩展(中文、西班牙语等)是下一步工作。

🔬 异常检测

当前模型主要面向正常解剖结构的理解,对罕见异常的检测能力有待验证和加强。

🏥 临床验证

尚未进行前瞻性临床试验。真实临床环境中的效用和安全性需要进一步评估。

Significance

为什么这篇论文重要?

🏆

领域首创

首个面向胎儿超声视频的视觉语言基础模型,填补了医学 VL 领域的重要空白。

🧠

方法创新

Anatomy Vocabulary Filter 和 Context Label Correction 是可推广的方法,适用于其他医学影像领域。

🌍

社会影响

有望降低全球超声筛查门槛,特别是在医疗资源匮乏的地区。

发表在 Nature Biomedical Engineering,标志着医学影像基础模型从静态图像走向动态视频的重要里程碑。

Future Directions

未来展望

🔬 技术方向

  • 多模态融合:整合 Doppler 血流信号、3D/4D 超声
  • 交互式 AI:医生可以与模型进行多轮对话
  • 异常检测:从"理解正常"到"发现异常"
  • 多语言支持:扩展到全球主要语言
  • 自监督预训练:利用海量无标签超声视频

🏥 临床方向

  • 多中心验证:在不同国家和人群中评估
  • 前瞻性试验:随机对照研究验证临床效用
  • 培训工具:作为超声培训的 AI 教学辅助
  • 远程医疗:支持偏远地区的远程超声指导
  • 标准化:推动超声检查的 AI 辅助标准化

Summary

总结

1
问题:胎儿超声解读高度依赖操作者经验,全球合格超声医生严重不足,现有 AI 模型仅面向静态图像。
2
方法:Sonomate 首个实现超声视频-文本对齐,通过 Anatomy Vocabulary Filter 和 Context Label Correction 解决异质性语言和时序异步两大难题。
3
结果:在零样本解剖检测(78.6% Top-1)和 VQA 上显著超越现有方法,消融实验验证了每个模块的有效性。
4
影响:为医学影像基础模型从静态走向动态开辟了新范式,有望降低全球超声筛查门槛。

Thank You

Xiaoqing Guo · Mohammad Alsharid · He Zhao · Yipei Wang
Jayne Lander · Aris T. Papageorghiou · J. Alison Noble

Hong Kong Baptist University · University of Oxford

Questions & Discussion