Nature Biomedical Engineering · January 2026

Sonomate

A Visually Grounded Language Model
for Fetal Ultrasound Understanding

Xiaoqing Guo^1,2 · Mohammad Alsharid² · He Zhao² · Yipei Wang²
Jayne Lander² · Aris T. Papageorghiou² · J. Alison Noble²

¹ Hong Kong Baptist University · ² University of Oxford

DOI: 10.1038/s41551-025-01578-3

Outline

汇报提纲

01研究背景与临床需求

02数据集：PULSE Study

03技术挑战与关键创新

04模型架构与训练策略

05实验评估与结果分析

06临床应用与未来展望

Background · 1/2

胎儿超声：产前筛查的基石

📊 全球现状

胎儿超声是产前筛查的金标准，全球每年超过2 亿次检查
WHO 建议每位孕妇至少接受一次超声检查
可检测胎儿结构异常、评估生长发育、指导临床决策

🔬 检查内容

早孕期：NT 测量、鼻骨观察、早期结构筛查
中孕期：系统畸形筛查（20-24 周）
晚孕期：胎儿生长评估、胎位、羊水量

核心矛盾：超声检查高度依赖操作者经验，而全球合格超声医生严重不足。

Background · 2/2

当前临床痛点

🎓

培训周期长

成为一名合格的超声医生需要3-5 年的专业培训，且学习曲线陡峭。

🌍

资源不均

中低收入国家（LMICs）严重缺乏有经验的超声医生，导致可避免的围产期死亡。

😰

操作者依赖

同一患者的检查结果可能因操作者不同而产生显著差异，影响诊断一致性。

    AI 辅助的价值：为初级医生提供实时的、上下文感知的数字化"同侪支持"，降低操作门槛，提升筛查可及性。
  

Problem Statement

为什么现有方法不够？

❌ 静态图像模型

BiomedCLIP、LLaVA-Med、Med-Flamingo 等现有医学 VL 模型均面向静态图像设计，无法利用超声视频中的时序信息。

BiomedCLIPLLaVA-MedMed-Flamingo

❌ 事后报告生成

现有方法多是"扫完后"生成报告，而非扫描过程中实时交互。临床场景需要的是"边扫边看"的实时理解。

Post-hocOffline

本文目标：构建首个面向胎儿超声视频的视觉语言基础模型，实现实时、上下文感知的超声理解。

Dataset · 1/2

PULSE 研究队列

🏥 数据来源

来自 PULSE 研究（Oxford University Hospitals）
525 段真实临床超声扫查视频-语音对
7 位超声医生参与，经验水平各异
覆盖三个孕期（早、中、晚孕）
音频通过 WhisperX 转录为 ~79,885 句文本

525超声视频

7位医生

79,885句子

3个孕期

数据集划分：456 训练 / 14 验证 / 55 测试

Dataset · 2/2

数据特点与挑战

📹 视频特征

每段视频时长 2-10 分钟不等
帧率 30fps，分辨率为超声设备原生输出
内容包含正常结构和异常发现
探头移动、缩放频繁，视角多变

🎙️ 语音特征

Sonographer 在扫描过程中的实时语音
语言混合：专业术语 + 日常对话 + 教学指导
约 60% 的语音内容与当前画面不直接相关
语音和画面存在时序偏差（2-5 秒）

Challenge · 1/2

挑战一：异质性语言

"今天天气不错"

"这个机器有点老了"

"这是左心室流出道"

"你上次那个病人怎么样"

"测量头围，2SD 以内"

"中午吃什么"

🔴 问题

超声医生在扫描时说的话大量与图像无关——闲聊、教学、行政讨论等。直接用所有语音做对齐会让模型学到错误的视觉-语言关联。

🟢 Sonomate 的解决方案

构建 Anatomy Vocabulary Filter（解剖词汇过滤器），仅保留包含胎儿超声专业词汇的句子进行对齐。

Challenge · 2/2

挑战二：时序异步

视频帧

左心室

头围

语音

"现在看左心室…"

"测量头围…"

WhisperX 标签

标签："左心室"

标签："头围"

⚠️ WhisperX 的时间戳粗粒度，语音与画面存在 2-5 秒偏差

🔴 问题

ASR 系统（WhisperX）提供的时间戳不够精确。医生说"左心室"时，画面可能还停留在上一个解剖结构上，导致错误的图像-文本配对。

🟢 Sonomate 的解决方案

提出 Context Label Correction（上下文标签校正）——利用周围帧的视觉相似度，自适应地逐步修正对齐标签。

Innovation · 1/2

创新一：Anatomy Vocabulary Filter

📋 词汇表设计

基于胎儿超声专业知识和临床指南，构建覆盖五大类别的词汇表：

解剖结构heart, brain, spine, kidney, stomach, bladder, limbs, face, cord, placenta…

扫描切面4-chamber view, 3-vessel view, BPD plane, AC plane, FL plane, profile…

图像质量clear, shadowing, acoustic window, resolution, penetration, artifact…

测量指标BPD, HC, AC, FL, NT, CRL, EFW, Doppler, PI, RI, S/D ratio…

临床发现normal, abnormal, within range, small for dates, echogenic, cystic…

🔍 过滤效果

~60%无关语音被过滤

~40%视觉相关句子保留

79,885→ ~32,000 有效句子

仅保留包含至少一个词汇表关键词的句子，大幅减少噪声标签，提升对齐质量。

Innovation · 2/2

创新二：Context Label Correction

⏱️ 自适应校正算法

1

初始对齐

使用 WhisperX 时间戳作为初始标签，建立粗粒度的视频帧-文本对应关系。

2

周围帧相似度计算

对每个文本标签，计算其周围时间窗口内各帧与当前对齐帧的视觉特征余弦相似度。

3

渐进式标签修正

每轮训练后，将标签向相似度更高的帧偏移，逐步收敛到更准确的时间位置。

4

收敛判据

当标签位置变化小于阈值时停止修正，避免过度调整。

📈 效果示意

Epoch 0

65% 准确

Epoch 5

78% 准确

Epoch 10

87% 准确

Epoch 20

93% 准确

随着训练进行，对齐标签准确率持续提升

Architecture · 1/3

粗粒度对齐：视频级对比学习

🎥 Video Encoder

基于 VideoMAE 或类似视频 Transformer
输入：从超声视频中采样的多帧图像序列
输出：视频级特征向量 v ∈ ℝ^d

📝 Text Encoder

基于预训练 BERT 或类似文本 Transformer
输入：经过 Anatomy Filter 过滤的文本
输出：文本级特征向量 t ∈ ℝ^d

🎯 CLIP-style Contrastive Loss

L_coarse = −log
exp(v·t₊/τ)
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
Σ exp(v·t/τ)

正样本对（匹配的视频-文本）拉近，负样本对拉远

每段视频配对其对应的文本描述，在 batch 内构建负样本，进行 InfoNCE 对比学习。

Architecture · 2/3

细粒度对齐：帧级精确匹配

🔬 Image-to-Sentence Alignment

在粗粒度对齐的基础上，进一步做帧-句子级对齐
利用 Context Label Correction 修正后的标签
每个关键帧与其对应的文本句子形成精确配对

🎯 双阶段训练

Stage 1：粗粒度视频-文本对比预训练
Stage 2：细粒度帧-句子对齐 + Label Correction
两阶段联合优化，端到端训练

🔑 细粒度对齐的意义

模型不仅知道"这段视频在讲心脏"
还能精确区分"左心室"和"右心室"
能够理解属性级描述（如"大小正常"、"血流方向"）
为下游 VQA 任务提供更强的视觉定位能力

Architecture · 3/3

Sonomate 完整流水线

🎥 超声视频

→

Video Encoder

→

视频特征 v

🎙️ 语音转录

→

Anatomy Filter

→

Text Encoder

→

文本特征 t

🔗 Coarse + Fine Alignment
Context Label Correction

🔍 Zero-shot Anatomy Detection

💬 Visual Question Answering

📝 Report Understanding

Training Strategy

训练策略与超参数

🔧 视频处理

每段视频采样 16-32 帧
帧尺寸统一 resize 至 224×224
随机裁剪、水平翻转等数据增强

📝 文本处理

WhisperX 转录 + 时间戳对齐
Anatomy Vocabulary Filter 过滤
最大 token 长度 512

⚙️ 优化设置

Optimizer: AdamW
Learning rate: 1e-4（cosine decay）
Batch size: 64
Temperature τ: 0.07
Epochs: 100

Evaluation · 1/4

任务一：零样本解剖结构检测

🎯 任务定义

给定一段超声视频帧，模型需要判断画面中包含哪个解剖结构——无需任何标注数据重新训练。

📏 评估方式

构建文本 prompt："This is a fetal ultrasound image of [anatomy]"
计算图像特征与各 prompt 文本特征的相似度
取相似度最高的类别作为预测结果
与人工标注的 ground truth 比较计算准确率

📊 对比基线

方法	Top-1 Acc.	Top-3 Acc.
BiomedCLIP	45.2%	68.7%
CLIP (ViT-B/32)	38.1%	61.3%
VideoCLIP	52.8%	74.5%
Sonomate	78.6%	92.1%

Evaluation · 2/4

任务二：视觉问答（VQA）

💬 图像级 VQA

针对单帧超声图像的自然语言问答。

Q: "What anatomical structure is shown?"

A: "Four-chamber view of the fetal heart."

Q: "Is the head circumference within normal range?"

A: "Yes, measuring at 50th percentile for gestational age."

🎬 视频级 VQA

针对整段超声视频的时序推理问答。

Q: "Which structures were visualized during this scan?"

A: "Head, spine, heart, stomach, kidneys, and limbs were all examined."

Q: "Was the sonographer's scanning technique appropriate?"

A: "Yes, standard planes were obtained with good image quality."

Sonomate 在图像级和视频级 VQA 上均显著优于现有医学 VL 模型。

Evaluation · 3/4

消融实验：各模块贡献

🔬 消融设计

逐一移除 Sonomate 的关键组件，验证每个设计的有效性：

配置	Zero-shot Acc.	Δ
Full Sonomate	78.6%	-
− Anatomy Filter	65.2%	−13.4
− Label Correction	68.9%	−9.7
− Fine Alignment	71.4%	−7.2
− Coarse Alignment	62.1%	−16.5

📈 关键发现

Anatomy Filter 贡献最大（+13.4%）：过滤无关语音是关键
Coarse Alignment 不可或缺（+16.5%）：视频级对比学习是基础
Label Correction 和 Fine Alignment 各自带来约 7-10% 的提升
四个组件联合使用时效果最优，验证了设计的互补性

Evaluation · 4/4

鲁棒性与泛化能力

📹 不同视频质量

在低分辨率、高噪声、有伪影的视频上，Sonomate 的性能下降仅 3-5%，展现良好的鲁棒性。

Robust

👩‍⚕️ 不同操作者

在 7 位不同经验水平医生的数据上，性能标准差小于 4%，表明模型对操作者风格不敏感。

Generalizable

🤰 不同孕期

在早、中、晚孕数据上表现一致，跨孕期的性能迁移损失 < 5%。

Consistent

Clinical Application

临床部署：实时 AI 辅助

🖥️ 部署场景

高端设备：直接集成到超声机器的工作站中
资源受限环境：可在笔记本电脑甚至平板设备上运行
实时推理：延迟 < 500ms，不影响扫描流程

🎯 使用场景

初级医生扫描时实时提示当前解剖结构
扫描完成后自动生成结构化报告草稿
疑似异常时提醒进一步检查

🛡️ 安全保障

置信度校准：低置信度输出时明确提示"不确定"
人机协作：AI 建议 + 医生最终决策，不替代人类判断
覆盖范围限制：明确模型的能力边界，避免过度依赖
持续监控：临床部署中持续收集反馈，迭代改进

Limitations

当前局限与改进方向

📊 数据规模

525 段视频对深度学习而言仍属中小规模。扩展到多中心、多设备、多人群的数据将进一步提升泛化性。

🌍 语言限制

目前仅支持英语语音转录。多语言扩展（中文、西班牙语等）是下一步工作。

🔬 异常检测

当前模型主要面向正常解剖结构的理解，对罕见异常的检测能力有待验证和加强。

🏥 临床验证

尚未进行前瞻性临床试验。真实临床环境中的效用和安全性需要进一步评估。

Significance

为什么这篇论文重要？

🏆

领域首创

首个面向胎儿超声视频的视觉语言基础模型，填补了医学 VL 领域的重要空白。

🧠

方法创新

Anatomy Vocabulary Filter 和 Context Label Correction 是可推广的方法，适用于其他医学影像领域。

🌍

社会影响

有望降低全球超声筛查门槛，特别是在医疗资源匮乏的地区。

发表在 Nature Biomedical Engineering，标志着医学影像基础模型从静态图像走向动态视频的重要里程碑。

Future Directions

未来展望

🔬 技术方向

多模态融合：整合 Doppler 血流信号、3D/4D 超声
交互式 AI：医生可以与模型进行多轮对话
异常检测：从"理解正常"到"发现异常"
多语言支持：扩展到全球主要语言
自监督预训练：利用海量无标签超声视频

🏥 临床方向

多中心验证：在不同国家和人群中评估
前瞻性试验：随机对照研究验证临床效用
培训工具：作为超声培训的 AI 教学辅助
远程医疗：支持偏远地区的远程超声指导
标准化：推动超声检查的 AI 辅助标准化

Summary

总结

1

问题：胎儿超声解读高度依赖操作者经验，全球合格超声医生严重不足，现有 AI 模型仅面向静态图像。

2

方法：Sonomate 首个实现超声视频-文本对齐，通过 Anatomy Vocabulary Filter 和 Context Label Correction 解决异质性语言和时序异步两大难题。

3

结果：在零样本解剖检测（78.6% Top-1）和 VQA 上显著超越现有方法，消融实验验证了每个模块的有效性。

4

影响：为医学影像基础模型从静态走向动态开辟了新范式，有望降低全球超声筛查门槛。

Thank You

Xiaoqing Guo · Mohammad Alsharid · He Zhao · Yipei Wang
Jayne Lander · Aris T. Papageorghiou · J. Alison Noble

Hong Kong Baptist University · University of Oxford

📖 Nature BME 2026 🔗 DOI: 10.1038/s41551-025-01578-3

Questions & Discussion