saillab/VinDR-CXR-PSF
收藏Hugging Face2026-04-01 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/saillab/VinDR-CXR-PSF
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- visual-question-answering
language:
- en
tags:
- medical
- chest-x-ray
- vqa
- paraphrase-sensitivity
- robustness
- radiology
pretty_name: VinDR-CXR Paraphrase Sensitivity Failure Dataset
size_categories:
- 10K<n<100K
source_datasets:
- faizan711/VinDR-CXR-VQA
---
# VinDR-CXR-PSF: Paraphrase Sensitivity Failure Evaluation Dataset
A benchmark for measuring **Paraphrase Sensitivity Failures (PSFs)** in medical Vision-Language Models, derived from the [VinDR-CXR-VQA](https://huggingface.co/datasets/faizan711/VinDR-CXR-VQA) dataset.
## Overview
PSF occurs when a VLM changes its answer to a clinically equivalent question simply because it is worded differently. This dataset provides systematically generated paraphrases across 5 linguistic phenomena, enabling reproducible evaluation of VLM robustness in radiology question-answering.
| Statistic | Value |
|-----------|-------|
| Flip bank rows | 31,444 |
| Unique question templates | 42 |
| Full image-question pairs | 8,820 |
| Unique images | 4,315 |
| Pathologies | 14 |
| Linguistic phenomena | 5 |
## Files
| File | Description | Rows |
|------|-------------|------|
| `vindr_flip_bank.csv` | Main evaluation set: original-paraphrase pairs with metadata | 31,444 |
| `vindr_questions.csv` | Template questions with answer distribution statistics | 42 |
| `vindr_questions_full.csv` | All image-question pairs with ground-truth answers and bounding boxes | 8,820 |
| `vindr_paraphrases_filtered.json` | Paraphrase generation output with similarity scores and filtering metadata | 146 paraphrases |
## Pathologies (14)
Aortic enlargement, Atelectasis, Calcification, Cardiomegaly, Consolidation, ILD, Infiltration, Lung Opacity, Nodule/Mass, Other lesion, Pleural effusion, Pleural thickening, Pneumothorax, Pulmonary fibrosis
## Linguistic Phenomena (5)
| Phenomenon | Description | Example |
|------------|-------------|---------|
| `lexical_substitution` | Synonym or near-synonym replacement | "show" -> "present" |
| `syntactic_restructuring` | Reordering clause structure | "Does X show Y?" -> "Is Y shown on X?" |
| `negation_pattern` | Introducing or restructuring negation | "show" -> "rule out" |
| `scope_quantification` | Changing quantifier scope | "any" -> "all", "some" -> "each" |
| `specificity_modulation` | Adjusting specificity level | "opacity" -> "ground-glass opacity" |
## Flip Bank Schema
| Column | Type | Description |
|--------|------|-------------|
| `question_id` | str | Unique identifier (vd-NNNNNN) |
| `original_question` | str | Source question from VinDR-CXR-VQA |
| `paraphrase` | str | Generated paraphrase |
| `phenomenon` | str | Linguistic phenomenon category |
| `op_orig` | str | Detected operation of original (presence, location, etc.) |
| `op_para` | str | Detected operation of paraphrase |
| `op_match` | bool | Whether original and paraphrase have matching operations |
| `ground_truth` | str | Expected answer |
| `question_type` | str | Question type (Is_there, Where, Yes_No) |
| `gt_finding` | str | Ground-truth pathology finding |
| `gt_location` | str | Spatial location token |
| `bbox` | str | Bounding box coordinates [x1, y1, x2, y2] |
| `image_id` | str | Image identifier (DICOM hash) |
| `dicom_path` | str | Original DICOM file path |
## Generation Method
1. **Template extraction**: 42 unique question templates from VinDR-CXR-VQA
2. **Paraphrase generation**: GPT-5.4 via OpenAI Batch API, generating 5 paraphrases per question across 5 linguistic phenomena
3. **Semantic filtering**: BioClinicalBERT (`emilyalsentzer/Bio_ClinicalBERT`) embedding similarity filtering with threshold 0.95 (edge cases at 0.90)
4. **Expansion**: Filtered paraphrases crossed with all applicable image-question pairs to produce the 31,444-row flip bank
## Usage
```python
from datasets import load_dataset
# Load the flip bank
ds = load_dataset("saillab/VinDR-CXR-PSF", data_files="vindr_flip_bank.csv")
# Or load specific files
flip_bank = load_dataset("saillab/VinDR-CXR-PSF", data_files="vindr_flip_bank.csv", split="train")
questions = load_dataset("saillab/VinDR-CXR-PSF", data_files="vindr_questions.csv", split="train")
```
## Images
This dataset contains **metadata only** (questions, paraphrases, annotations). Chest X-ray images must be obtained separately from the [VinDR-CXR](https://physionet.org/content/vindr-cxr/1.0.0/) dataset on PhysioNet (requires credentialed access) or from [faizan711/VinDR-CXR-VQA](https://huggingface.co/datasets/faizan711/VinDR-CXR-VQA) on HuggingFace Hub.
## Source
Derived from [faizan711/VinDR-CXR-VQA](https://huggingface.co/datasets/faizan711/VinDR-CXR-VQA), which is itself derived from VinDR-CXR (Nguyen et al., 2022).
## Citation
If you use this dataset, please cite the PSF-Med benchmark:
```bibtex
@inproceedings{sadanadan2026psfmed,
title={PSF-Med: Measuring and Mitigating Paraphrase Sensitivity Failures in Medical Vision-Language Models},
author={Sadanadan, Binesh and Behzadan, Vahid},
booktitle={Proceedings of the International Conference on Machine Learning (ICML)},
year={2026}
}
```
## License
CC-BY-4.0 (same as the source VinDR-CXR-VQA dataset).
提供机构:
saillab
搜集汇总
数据集介绍

构建方式
在医学影像视觉问答领域,数据集的构建方法直接影响其科学价值。VinDR-CXR-PSF数据集源自VinDR-CXR-VQA,通过系统化流程构建:首先从源数据集中提取42个独特问题模板,随后利用GPT-5.4模型针对五种语言学现象生成语义等效的复述变体,每个原始问题生成五个复述版本。为确保临床语义一致性,采用BioClinicalBERT模型进行嵌入相似度过滤,设定0.95的阈值保留高质量复述。最终通过交叉扩展形成包含31,444对原始-复述问题的翻转库,覆盖14种胸部病理与5类语言学现象。
使用方法
使用该数据集时需注意其纯元数据特性,胸部X光图像需从VinDR-CXR原始数据集另行获取。通过HuggingFace数据集库可直接加载核心翻转库文件,支持灵活的数据访问方式。典型应用场景包括评估视觉语言模型对医学问题复述的敏感性,通过对比模型对原始问题与复述问题的回答一致性,量化其临床推理鲁棒性。研究人员可依据问题类型、病理类别或语言学现象进行分层分析,边界框坐标支持空间推理能力的细粒度评估。该数据集为医学AI模型的可靠性验证提供了标准化基准。
背景与挑战
背景概述
VinDR-CXR-PSF数据集由Sadanadan与Behzadan等研究人员于2026年构建,旨在评估医学视觉语言模型在胸部X光影像问答任务中的复述敏感性失效问题。该数据集源于VinDR-CXR-VQA基准,通过系统化生成涵盖五种语言现象的临床等效问题复述,为衡量模型在放射学语境下的语义鲁棒性提供了标准化测试平台。其核心研究聚焦于揭示模型对问题表述变化的脆弱性,即因措辞差异而改变临床答案的现象,从而推动医疗人工智能在诊断辅助系统中的可靠性与安全性发展。
当前挑战
该数据集致力于解决医学视觉语言模型在胸部X光影像问答中因问题复述导致的答案不一致性挑战,即复述敏感性失效问题。构建过程中面临多重困难:首先需从原始数据中提取具有临床代表性的问题模板,并确保复述生成在保持医学语义等价性的同时覆盖多样化的语言现象;其次,利用生物医学预训练模型进行语义过滤时,相似度阈值的设定需平衡严格性与覆盖面,以避免信息损失或噪声引入;此外,数据集依赖外部影像资源,其多源数据整合与标注一致性维护亦构成显著挑战。
常用场景
经典使用场景
在医学影像人工智能领域,评估视觉语言模型(VLM)的鲁棒性至关重要。VinDR-CXR-PSF数据集专为检测医学视觉语言模型中的“释义敏感性失败”(PSF)现象而构建,即模型对临床意义相同但表述不同的问题给出不一致的答案。该数据集通过系统生成的五类语言学现象(如同义词替换、句法重构、否定模式、量化范围调整和特异性调制)的释义对,为研究者提供了一个可复现的基准测试平台,用于量化模型在胸部X光影像问答任务中对语言变化的脆弱性。
解决学术问题
该数据集直接针对医学人工智能中一个关键但常被忽视的可靠性问题:模型输出对非临床相关的语言变动的敏感性。它使得系统性地测量和诊断视觉语言模型在放射学语境下的“释义敏感性失败”成为可能,从而推动了模型鲁棒性评估从一般领域向高风险的医疗领域的深化。其意义在于为构建可信赖的医疗AI设立了新的评估标准,促使研究从单纯的性能优化转向对模型行为一致性与安全性的严格审查。
实际应用
在实际临床决策支持系统的开发与验证中,VinDR-CXR-PSF数据集发挥着关键作用。它可用于对即将部署的医学影像分析模型进行压力测试,确保其不会因为放射科医师或电子病历系统中不同的提问习惯而产生矛盾的解读。这直接提升了辅助诊断工具在真实世界复杂语言环境下的可靠性与安全性,为模型进入临床工作流程前的严格验证提供了不可或缺的评估工具。
数据集最近研究
最新研究方向
在医学影像人工智能领域,视觉语言模型的鲁棒性评估正成为前沿焦点。VinDR-CXR-PSF数据集针对医学影像问答任务中的同义改写敏感性问题,系统构建了涵盖五种语言现象的改写对,为量化模型在临床等效问题上的不一致性提供了基准。这一研究方向紧密关联着医疗AI部署中的安全性与可靠性热点,旨在揭示模型对语言表层变化的脆弱性,从而推动更具泛化能力的诊断辅助系统发展。其影响在于为医学多模态模型的稳健性评估设立了新范式,促进了模型在真实临床语境下的可信应用。
以上内容由遇见数据集搜集并总结生成



