ReXSonoVQA

Name: ReXSonoVQA
Creator: 哈佛大学医学院·生物医学信息学系
Published: 2026-04-15 00:22:32
License: 暂无描述

arXiv2026-04-15 更新2026-04-16 收录

下载链接：

https://github.com/rajpurkarlab/RexSonoVQA

下载链接

链接失效反馈

官方服务：

资源简介：

ReXSonoVQA是由哈佛大学医学院团队构建的首个面向超声操作流程理解的视频问答基准数据集，包含514个从YouTube公开教学视频中截取的超声操作片段，涵盖249道选择题和265道开放式问题。该数据集聚焦三大核心能力评估：动作-目标推理、伪影解决与优化、流程上下文规划，通过时间戳标注和事件日志结构化呈现探头操作与成像目标的动态关联。数据经过严格的盲测筛选和干扰项优化，旨在推动超声培训指导系统和机器人自动化中的感知算法开发，解决传统静态图像评估无法捕捉的动态操作逻辑问题。

ReXSonoVQA is the first video question answering benchmark dataset for ultrasound procedural understanding, developed by a team from Harvard Medical School. Comprising 514 ultrasound procedural clips extracted from publicly available YouTube tutorial videos, it includes 249 multiple-choice questions and 265 open-ended questions. This dataset focuses on three core competency assessments: action-target reasoning, artifact resolution and optimization, and procedural context planning. It structurally presents the dynamic associations between probe operations and imaging targets via timestamp annotations and event logs. The dataset has undergone rigorous blind screening and distractor optimization, aiming to promote the development of perception algorithms for ultrasound training guidance systems and robotic automation, addressing the limitation of traditional static image assessments that fail to capture dynamic procedural logic.

提供机构：

哈佛大学医学院·生物医学信息学系

创建时间：

2026-04-13

原始信息汇总

ReXSonoVQA 数据集概述

数据集基本信息

数据集名称: ReXSonoVQA (Ultrasound Video Benchmark)
核心用途: 评估视觉语言模型在超声视频理解任务上的性能。
数据形式: 基于YouTube超声视频构建的问答对基准测试集。

数据内容与规模

问题总数: 657个
- 多项选择题 (MCQ): 320个
- 自由问答题 (Free Response): 337个
视频来源: 所有视频片段均来自YouTube，无需本地视频文件。
标注信息: 包含人工整理的视频元数据，用于定位YouTube视频中的相关片段及超声内容区域。

数据结构与文件

基准测试数据

benchmark_questions/: 基准测试问题
- mcq/: 存放多项选择题 (320个)
- free/: 存放自由问答题 (337个)
gt_all/: 存放从视频中提取的结构化地面真值标注。
video_metadata_new.json: 核心元数据文件，将每个基准测试视频映射到其YouTube源。包含：
- YouTube URL
- 起始/结束时间戳 (秒)
- 感兴趣区域 (ROI) 的比例坐标 (用于裁剪超声内容区域)

支持脚本与工具

推理脚本: inference_qa_youtube.py (通过YouTube流直接处理视频片段)
评估脚本: evaluate_results.py (使用LLM-as-judge评估模型预测结果)
基准构建脚本 (供参考): build_benchmark.py, generate_QA.py, refine_MCQ.py, inference_qa_check.py

数据格式详情

视频元数据格式 (`video_metadata_new.json`)

json { "视频标识名": { "youtube_url": "https://www.youtube.com/watch?v=...", "start_time": 18.31, "end_time": 131.69, "roi": { "x_prop": 0.459016, "y_prop": 0.297917, "w_prop": 0.440281, "h_prop": 0.4375 } } }

问题中的时间戳 (time_start, time_end) 相对于视频内容本身，映射到YouTube时间为 start_time + time_start。

问题数据格式

每个JSON文件中的问答项包含以下字段： json { "question": "问题文本...", "answer": "标准答案", "groundtruth": "原始转录的详细信息", "question_type": "问题类型", "time_start": 0.0, "time_end": 10.5, "keep": true }

keep 字段表示该问题是否通过了盲测质量控制。

问题类型

Type1_ActionGoalReasoning: 正在执行什么操作及原因 (目标/靶向视图)
Type2_ArtifactResolutionOptimization: 解决伪影/模糊性：发生了什么变化及原因
Type3_ProcedureContextPlanning: 当前步骤/阶段，下一步是什么及原因 (流程协议)

评估方法

多项选择题 (MCQ): 使用准确率 (预测答案与正确答案字母的精确匹配)。
自由问答题 (Free Response): 使用由Gemini 3 Pro作为LLM法官评分的0-2分制：
- 2分: 结论正确且视觉证据正确
- 1分: 部分正确 (结论或证据有误)
- 0分: 不正确、不相关或幻觉答案

使用要求与依赖

主要Python库: google-genai, openai
外部工具:
- yt-dlp: 用于YouTube流解析
- ffmpeg: 用于片段提取和ROI裁剪
支持的VLM后端: gemini, qwen, seed (使用需提供相应API密钥)

基线结果

数据集中提供了基线模型的评估结果：
- final_scores_all_MCQ/: 多项选择题的基线结果
- final_scores_all_free/: 自由问答题的基线结果

搜集汇总

数据集介绍

构建方式

在超声影像自动化系统快速发展的背景下，ReXSonoVQA数据集的构建旨在填补动态程序理解评估的空白。其构建流程始于从公开教学视频平台系统性地采集超声操作演示视频，并依据严格的纳入标准进行筛选，确保视频内容富含连续扫描片段与清晰的操作解说。随后，利用自动语音识别技术对视频进行转录与时间对齐，并借助大语言模型将解说文本转化为结构化的、时间戳对齐的程序事件日志。基于这些事件日志，通过精心设计的提示工程生成初始的问答对，并实施迭代式的质量控制循环，包括文本盲测筛选与干扰项优化，以确保每个问题都必须依赖视频视觉线索才能解答，最终形成了包含514个视频片段与对应问答的基准数据集。

特点

ReXSonoVQA的核心特点在于其专注于超声扫描过程的动态程序性推理，而非传统的静态图像识别。该数据集通过三类认知任务——动作-目标推理、伪影解决与优化、以及程序上下文与规划——系统性地评估模型对探头操控、图像质量优化及协议执行流程的理解能力。其问题形式兼具多项选择题与开放式问答题，覆盖腹部、泌尿生殖、产科等多个临床类别，确保了评估维度的多样性与临床相关性。尤为重要的是，数据集通过严谨的质量控制机制，有效降低了模型仅从问题文本中获取答案线索的可能性，从而凸显了视频理解在程序性认知中的不可或缺性。

使用方法

该数据集主要作为评估视觉语言模型在超声视频理解领域能力的基准测试平台。研究者可将视频片段（通常已静音）与对应的问题输入至支持原生视频处理的模型中，进行零样本或少样本评估。对于多项选择题，通过对比模型输出选项与标准答案计算准确率；对于开放式问答题，则采用基于大语言模型的评判机制，依据视觉证据与程序推理的双重正确性进行分级评分。通过并行设置纯文本输入（盲测）与视频输入两种评估条件，可以量化视觉信息带来的性能增益，并诊断模型在因果推理与故障排除等深层任务上的具体局限，从而为开发面向超声培训、实时引导及机器人自动化的感知系统提供关键的评估依据。

背景与挑战

背景概述

超声影像学因其便携性与实时成像优势在临床广泛应用，但其图像质量高度依赖操作者的探针操控技巧与实时调整能力。为推进智能超声辅助系统与自主机器人扫描技术的发展，哈佛医学院生物医学信息学系的Pranav Rajpurkar团队于2026年创建了ReXSonoVQA数据集。该数据集旨在填补现有医学视觉语言模型评估仅关注静态图像理解的空白，首次聚焦于超声检查的动态过程理解，核心研究问题在于评估模型对扫描过程中操作意图、故障排除与流程规划的认知能力。通过构建包含514个视频片段与对应问答的基准，ReXSonoVQA为开发具备实时引导与自主决策能力的超声感知系统奠定了关键评估基础，推动了医学人工智能从静态识别向动态过程理解的范式转变。

当前挑战

ReXSonoVQA致力于解决的领域挑战在于实现超声检查过程的动态程序性理解，这要求模型超越静态解剖结构识别，具备对探针操作、图像伪影解决及检查协议推进的时序与因果推理能力。具体而言，其挑战体现在评估模型在三大核心认知任务上的表现：动作-目标推理、伪影解决与优化、以及流程上下文与规划。在数据集构建过程中，研究团队面临多重挑战：首先，需从公开教学视频中精准提取连续扫描片段并构建时间对齐的程序事件日志；其次，为确保问题解答必须依赖视觉信息，需通过严格的文本可解性筛查与干扰项优化流程，消除仅凭临床先验知识或问题措辞线索即可作答的可能性；最后，评估需在排除音频信息的条件下进行，迫使模型完全依据视频中的视觉动态（如探针运动、图像变化）进行推理，这对模型的纯视觉时序理解能力提出了极高要求。

常用场景

经典使用场景

在超声影像智能化的研究领域，ReXSonoVQA数据集为评估视觉语言模型在动态操作理解方面的能力提供了首个标准化基准。该数据集通过514个带有时序标注的超声操作视频片段及其对应的问答对，系统性地考察模型对探头操控、图像优化和流程规划三个核心维度的理解。研究者通常利用该数据集进行零样本或少样本评估，以检验前沿视频语言模型能否从连续的扫描动作中推断操作意图，这为开发具备实时引导能力的智能超声系统奠定了关键的评估基础。

衍生相关工作

ReXSonoVQA的发布催生了一系列围绕动态医学视频理解的研究工作。在方法论层面，其构建流程中基于事件日志的问答生成与严格的盲测质量控制机制，为后续动态医学基准的构建提供了可复用的范式。在模型开发层面，该数据集揭示的现有模型在因果推理与故障排除方面的不足，直接激励了新一代医学视频语言模型的研发，这些模型致力于融合更强大的时序建模与临床知识推理能力。此外，数据集所确立的评估框架也促进了超声机器人领域研究从基于规则的视觉伺服向基于学习的行为理解深化，相关系统开始整合类似的程序性理解模块以实现更高层次的自主性。

数据集最近研究