ReXSonoVQA

github2026-04-07 更新2026-04-30 收录

下载链接：

https://github.com/rajpurkarlab/RexSonoVQA

下载链接

链接失效反馈

官方服务：

资源简介：

ReXSonoVQA是一个全面的基准数据集，用于评估视觉语言模型在超声视频理解任务上的性能。它提供了从超声视频构建真实注释、生成问答对（多项选择和自由回答）、运行模型推理以及使用LLM作为评判标准评估模型性能的完整流程。视频剪辑在推理过程中直接从YouTube流式传输，无需本地视频文件。

ReXSonoVQA is a comprehensive benchmark dataset for evaluating the performance of vision-language models on ultrasound video understanding tasks. It provides a complete workflow that includes constructing ground-truth annotations from ultrasound videos, generating question-answer pairs (multiple-choice and free-form answers), performing model inference, and evaluating model performance with LLMs serving as judges. Video clips are streamed directly from YouTube during the inference process, eliminating the need for local video files.

创建时间：

2026-04-07

原始信息汇总

数据集概述

ReXSonoVQA 是一个用于评估视觉-语言模型在超声视频理解任务上的综合基准测试。

数据集构成

数据项	数量/说明
多选题 (MCQ)	320题
自由回答题 (Free Response)	337题
视频来源	YouTube，通过 `video_metadata_new.json` 提供每个视频的YouTube URL
标注类型	人工策展的视频元数据，包括起止时间戳和感兴趣区域（ROI）

问题类型

类型	说明
Type1_ActionGoalReasoning	正在执行什么操作及其原因（目标/目标视图）
Type2_ArtifactResolutionOptimization	解决伪影/歧义：发生了什么变化及原因
Type3_ProcedureContextPlanning	当前步骤/阶段、下一步操作及原因（协议流程）

目录结构

ReXSonoVQA/ ├── benchmark_questions/ # 基准测试问题 │ ├── mcq/ # 多选题 (320题) │ └── free/ # 自由回答题 (337题) ├── gt_all/ # 真实标注 ├── video_metadata_new.json # YouTube元数据（URL、时间戳、ROI） ├── build_benchmark.py # 从视频构建真实标注 ├── generate_QA.py # 从标注生成问答对 ├── refine_MCQ.py # 完善多选题干扰项 ├── inference_qa_check.py # 盲测质量控制 ├── inference_qa_youtube.py # 通过YouTube流运行推理 ├── video_source.py # YouTube视频源工具 ├── evaluate_results.py # 评分模型预测（LLM作为裁判） ├── final_scores_all_MCQ/ # 基线MCQ结果 └── final_scores_all_free/ # 基线自由回答结果

YouTube元数据格式

每个视频的元数据包含以下字段：

youtube_url: 来源视频的完整YouTube URL
start_time/end_time: YouTube时间戳（秒），定位基准内容所在片段
roi: 感兴趣区域，包含比例坐标（x_prop, y_prop, w_prop, h_prop），为0-1分数，用于裁剪超声内容区域

评估指标

多选题 (MCQ): 精确匹配准确率（预测答案字母与正确答案完全一致）
自由回答题 (Free Response): 由LLM（Gemini 3 Pro）进行0-2分评估：
- 2 — 正确结论且正确的视觉证据
- 1 — 部分正确（结论或证据有误）
- 0 — 错误、无关或幻觉

使用流程

推理: 使用 inference_qa_youtube.py 从YouTube直接流式传输视频片段进行模型推理，支持 gemini、qwen、seed 后端
评估: 使用 evaluate_results.py 对模型预测结果进行评分，评估自动排除 keep: false 的题目

环境要求

google-genai
openai
yt-dlp（YouTube流解析）
ffmpeg（片段提取和ROI裁剪）

搜集汇总

数据集介绍

构建方式

ReXSonoVQA数据集的构建遵循一套严谨的流水线，起始于从超声视频中提取音频并利用WhisperX进行词级对齐的转录，进而通过Gemini 3 Pro模型生成结构化的事件标注，构建出丰富的地面真值。在此基础之上，利用GPT-5.2-pro模型自动生成多样化的问答对，涵盖选择题与自由回答两种格式，并辅以精细的干扰项优化步骤提升选择题质量。最后，通过无视频的盲测实验筛选出真正依赖视觉理解的样本，确保每一道题目均能有效评估模型对超声影像的感知能力。

特点

该数据集的核心特色在于其视频片段直接源自YouTube流式传输，无需存储本地视频文件，显著降低了数据管理的复杂度。每个样本均配备精准的YouTube链接、时间戳及感兴趣区域的比例坐标，使得对超声内容区域进行自动裁剪成为可能。问答对覆盖三类高阶推理任务：操作目标推理、伪影解析与优化、以及流程上下文规划，全面考验视觉语言模型在临床超声场景下的理解深度。此外，数据集经盲测质量把控，剔除了仅凭医学知识即可回答的题目，确保评估的视觉特异性。

使用方法

使用ReXSonoVQA数据集时，用户只需运行`inference_qa_youtube.py`脚本，并配置好`video_metadata_new.json`元数据文件以及所选视觉语言模型后端的API密钥，即可直接从YouTube流式获取视频片段进行推理。支持Gemini、Qwen和Seed等多种后端，用户可通过命令行参数灵活指定问题目录、输出路径及并行处理数。推理完成后，调用`evaluate_results.py`脚本，利用LLM作为评判者，对选择题采用精确匹配计算准确率，对自由回答题则从结论正确性与视觉证据合理性两个维度给出0-2分的评分，实现对模型性能的全面量化评估。

背景与挑战

背景概述

医学超声影像作为临床诊断的重要手段，其视频模态的自动化解析对于提升诊疗效率与准确性具有深远意义。ReXSonoVQA数据集由相关研究团队于近年构建，旨在为视觉-语言模型在超声视频理解领域提供全面的评估基准。该数据集的核心研究问题聚焦于模型能否在复杂的超声视频场景中精准识别操作动作、解析伪影成因并推理后续诊疗步骤。通过整合YouTube来源的临床超声视频片段，并辅以人工精心标注的元数据与质量控制流程，ReXSonoVQA为评估多模态大模型的时序推理与医学知识融合能力开辟了新的途径，在医学影像与人工智能的交叉领域产生了重要的示范效应。

当前挑战

ReXSonoVQA面对的核心挑战首先源于超声视频本身的固有复杂性。与自然图像不同，超声视频常伴有低对比度、高噪声与动态伪影，要求模型具备超越静态认知的时序理解力，方能提炼出如操作意图、切面优化等关键临床信息。其次，在数据集构建过程中，挑战集中于跨模态对齐与质量控制：如何从YouTube平台上获取的高变异性视频流中，精准提取感兴趣区域，并同步实现音频转录、结构化事件描述与问答对的自动生成，同时确保问题无法单凭医学常识解答，是平衡自动化效率与标注可信度的巨大难点。此外，采用大语言模型作为评判标准引入了主观偏差风险，如何设计更鲁棒的评估机制以客观反映模型表现，构成了另一个亟待逾越的障碍。

常用场景

经典使用场景

在医学影像分析领域，超声视频因其动态特性与实时操作依赖性，对视觉-语言模型的时空理解能力提出了独特挑战。ReXSonoVQA作为首个专为超声视频理解设计的综合性基准，核心使用场景在于系统评估前沿视觉-语言模型在解析动态超声影像时的表现。该基准通过精心构建的多选题与自由回答两大类问答对，覆盖动作目标推理、伪影优化及手术流程规划三类核心认知任务，要求模型不仅识别静态解剖结构，更要理解操作意图与临床决策的时序逻辑，从而为衡量模型在动态医学环境中的感知与推理能力提供标准化测试平台。

实际应用

在实际临床场景中，ReXSonoVQA为智能超声诊断系统提供了关键的验证工具。该基准可用于评估AI助手能否实时理解操作者正在进行的扫描手法（如标准切面获取）、识别图像伪影并给出优化建议，以及预测下一步应遵循的扫描协议。医学教育领域可将其作为客观考核工具，评判实习医生在观看超声操作视频后的理解程度。此外，远程医疗平台可借助经此基准验证的模型，自动解析基层医疗机构上传的超声录像并生成结构化报告，辅助专家会诊决策，从而提升医疗资源分布不均地区的诊断可及性与一致性。

衍生相关工作

ReXSonoVQA的发布催生了一系列开创性后续工作。研究者基于其三类问题划分框架，进一步提出了超声视频中的动作分割与语义解码模型，将问答任务拓展至连续动作流的高效表示学习。其LLM-as-Judge评估范式被后续医学多模态基准广泛采纳，成为评估自由回答质量的主流方案。围绕该基准，还衍生出针对超声视频时空注意力机制优化的专用网络结构，以及融合临床知识图谱增强推理能力的混合架构。此外，该基准推动的YouTube流式推理模式，为大规模视频数据集构建提供了避免本地存储与版权问题的创新思路，深刻影响了后续医学视频基准的开发方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集