MedVoiceQAReasonDataset

github2025-05-27 更新2025-05-28 收录

下载链接：

https://github.com/whats2000/MedVoiceQAReasonDataset

下载链接

链接失效反馈

官方服务：

资源简介：

将VQA-RAD转换为一个多模态、可解释的医疗问答小型语料库（语音✚边界框✚推理），包含300个样本，涵盖CT/MRI/X射线，按模态和问题类型分层。

The VQA-RAD dataset has been transformed into a multimodal, interpretable medical question answering corpus (voice + bounding boxes + inference) with 300 samples, covering CT/MRI/X-ray, and organized by modality and question type.

创建时间：

2025-05-25

原始信息汇总

MedVoiceQAReasonDataset 数据集概述

📌 数据集简介

来源转换：基于 VQA‑RAD 转换的多模态可解释医学问答小规模语料库
新增内容：融合语音、视觉定位框及推理过程
样本规模：300 个覆盖 CT/MRI/X 射线的样本，按模态和问题类型分层

🌟 数据模态与字段

模态	字段	生成工具/模型
图像	`image` (PNG)	VQA‑RAD DICOM → PNG (dicom2png)
语音	`speech_input` (WAV)、`asr_text`	Bark (TTS) → Whisper‑L (ASR)
视觉定位	`visual_box`	Gemini 2 Flash Vision (仅边界框)
推理	`text_explanation`、`uncertainty`	Gemini 2 Flash Language
QA标记	`needs_review`、`critic_notes`	Gemini 验证双模型

🔧 处理流程 (LangGraph)

mermaid flowchart LR Loader --> Segmentation Segmentation --> ASR_TTS ASR_TTS --> Explanation Explanation --> Validation Validation --> END

每个节点由 LangGraph 执行，边缘传递单一 JSON 数据块
人工审核通过独立 Web UI 完成

📂 仓库结构

. ├── pipeline/ # LangGraph 流程定义 ├── nodes/ # 各节点实现 ├── data/ # 原始数据加载脚本 ├── ui/ # 人工审核界面 (Streamlit) ├── registry.json # 节点版本注册表 └── runs/ # 输出目录 (git忽略)

📊 质量指标

字段	评估标准	合格阈值
`visual_box`	IoU (对比人工标注)	> 0.50
`text_explanation`	BERTScore F1	> 0.85
一致性	5次自检一致率	≥ 80%
整体	`needs_review = false`	≥ 80%

📜 许可与引用

代码许可: MIT
衍生数据许可: CC‑BY 4.0 (需引用 VQA‑RAD) bibtex @dataset{medvoiceqa_2025, title = {MedVoiceQAReasonDataset}, year = {2025}, url = {https://github.com/whats2000/MedVoiceQAReasonDataset} }

🔄 模型更新流程

训练/微调新模型
封装至符合节点 JSON 规范
在 registry.json 注册版本
修改 run_pipeline.py 指向新版本
通过测试后合并

搜集汇总

数据集介绍

构建方式

MedVoiceQAReasonDataset通过多模态转换技术将VQA-RAD数据集重构为包含语音、视觉定位和推理解释的医疗问答语料库。构建过程采用LangGraph框架实现模块化流水线处理，依次完成图像转换（DICOM→PNG）、语音合成（Bark TTS）、语音识别（Whisper-L）、视觉定位（Gemini 2 Flash边界框生成）和推理解释生成（Gemini 2 Flash语言模型）等关键步骤。最终通过双阶段质量验证机制，结合自动化指标评估和人工交互式审核界面确保数据可靠性。

使用方法

使用流程遵循标准化技术验证路径：通过uv工具链完成CUDA环境适配的依赖安装后，用户可分级执行数据加载、50样本试运行或全量处理。独特的Web审核界面（localhost:8501）支持可视化校验语音/图像/解释的协同质量，并提供样本审批、问题标注等交互功能。研究复现时需注意registry.json中记录的节点版本信息，且输出目录采用时间戳-hash的防篡改存储结构，manifest.json确保实验可追溯性。

背景与挑战

背景概述

MedVoiceQAReasonDataset是一个多模态、可解释的医学问答数据集，由VQA-RAD数据集转化而来，融合了语音、视觉定位和推理等多种模态信息。该数据集由研究团队于2025年创建，旨在解决医学图像问答领域中的多模态理解和推理问题。数据集覆盖了CT、MRI和X射线等多种医学影像模态，并通过分层抽样确保了数据的多样性和代表性。其核心研究问题在于如何通过多模态数据增强医学问答系统的解释性和交互性，为医学人工智能领域提供了重要的研究资源。

当前挑战

MedVoiceQAReasonDataset面临的挑战主要体现在两个方面。其一，在领域问题层面，医学图像问答需要处理复杂的多模态数据融合问题，包括图像、语音和文本之间的对齐与协同理解，这对模型的跨模态推理能力提出了较高要求。其二，在构建过程中，数据集整合了多种先进工具和模型（如Bark、Whisper-L和Gemini等），涉及复杂的处理流程，包括语音合成与识别、视觉定位和推理生成等环节，每个环节的质量控制与数据一致性维护均构成了技术挑战。此外，医学数据的专业性和敏感性也增加了数据标注和验证的难度。

常用场景

经典使用场景

在医学影像与自然语言处理的交叉领域，MedVoiceQAReasonDataset为研究者提供了一个多模态、可解释的医疗问答基准。该数据集通过整合CT/MRI/X光影像、语音输入、视觉定位框及推理文本，构建了一个涵盖300个样本的微型语料库。其经典使用场景集中在开发能够理解医学影像内容并生成合理解释的智能系统，特别是在放射科辅助诊断场景中，模型需要同时处理视觉信息与临床问题，输出结构化的诊断依据。

解决学术问题

该数据集有效解决了医疗多模态推理中的三大核心问题：跨模态对齐的精度不足、诊断决策过程缺乏可解释性，以及医学领域专业术语的语义理解偏差。通过Gemini模型生成的视觉定位框与文本解释，研究者可量化评估模型对病灶区域的关注度与逻辑连贯性。其分层采样的设计（按影像模态与问题类型）进一步缓解了医学数据分布不均对模型泛化能力的影响，为可信赖的医疗AI研究提供了标准化测试平台。

实际应用

在实际医疗场景中，该数据集支撑的智能系统可部署于放射科工作流辅助环节。当医师查看影像时，系统能通过语音交互实时回答关于病灶特征的询问，并以热力图标注可疑区域，同时生成符合临床指南的推理文本。这种应用显著缩短了初级医师的诊断学习曲线，在急诊科等时效敏感场景中，多模态快速响应机制能辅助快速分诊决策。

数据集最近研究