five

RadGenome/PMC-VQA

收藏
Hugging Face2024-07-02 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/RadGenome/PMC-VQA
下载链接
链接失效反馈
官方服务:
资源简介:
# PMC-VQA Dataset - [PMC-VQA Dataset](#pmc-vqa-dataset) - [Daraset Structure](#daraset-structure) - [Sample](#sample) ## Dataset Structure **PMC-VQA** (version-1: 227k VQA pairs of 149k images). - `train.csv`: metafile of train set - `test.csv`: metafile of test set - `test_clean.csv`: metafile of test clean set - `images.zip`: images folder - (**update** version-2: noncompound images). - `train2.csv`: metafile of train set - `test2.csv`: metafile of test set - `images2.zip`: images folder - ## Sample A row in `train.csv` is shown bellow, | Figure_path | PMC1064097_F1.jpg | | ------------ | --------------------------------------------- | | Question | What is the uptake pattern in the breast? | | Answer | Focal uptake pattern | | Choice A | A:Diffuse uptake pattern | | Choice B | B:Focal uptake pattern | | Choice C | C:No uptake pattern | | Choice D | D:Cannot determine from the information given | | Answer_label | B | Explanation to each key - Figure_path: path to the image - Question: question corresponding to the image - Answer: the correct answer corresponding to the image - Choice A: the provide choice A - Choice B: the provide choice B - Choice C: the provide choice C - Choice D: the provide choice D - Anwser_label: the correct answer label ## Dataset License The papers used for developing PMC-VQA are from the 'Commercial Use Allowed' split of the PMC Open Access Subset. We provide the detailed PubMed Central ID for each paper and corresponding licenses in the supplementary files, which are all under CC0 or CC BY licenses. Our final dataset, PMC-VQA, is under CC BY-SA licenses so that it can be widely used to support the development of medical generative-based VQA models.

# PMC-VQA 数据集 - [PMC-VQA 数据集](#pmc-vqa-dataset) - [数据集结构](#dataset-structure) - [样本示例](#sample) ## 数据集结构 **PMC-VQA**(版本1:涵盖14.9万张图像对应的22.7万组视觉问答(Visual Question Answering,VQA)样本对)。 - `train.csv`:训练集元数据文件 - `test.csv`:测试集元数据文件 - `test_clean.csv`:干净测试集元数据文件 - `images.zip`:图像压缩包 (**更新** 版本2:仅含非复合图像) - `train2.csv`:训练集元数据文件 - `test2.csv`:测试集元数据文件 - `images2.zip`:图像压缩包 ## 样本示例 `train.csv`中的一行示例如下: | 字段名 | 示例内容 | | ------------ | -------------------------------------------- | | 图像路径 | PMC1064097_F1.jpg | | 问题 | 乳腺中的摄取模式是什么? | | 标准答案 | 局灶性摄取模式 | | 选项A | A:弥漫性摄取模式 | | 选项B | B:局灶性摄取模式 | | 选项C | C:无摄取模式 | | 选项D | D:无法根据给定信息判断 | | 答案标签 | B | ### 各字段说明 - `Figure_path`:对应图像的存储路径 - `Question`:针对该图像提出的问题 - `Answer`:该图像对应的标准答案 - `Choice A`:预设选项A - `Choice B`:预设选项B - `Choice C`:预设选项C - `Choice D`:预设选项D - `Answer_label`:正确答案的选项标签 ## 数据集许可协议 用于构建PMC-VQA数据集的论文均来自PMC开放获取子集(PMC Open Access Subset)中“允许商业使用”的分区。我们在补充材料中提供了每篇论文的详细PubMed Central编号(PubMed Central ID,PMCID)及其对应的许可协议,所有论文均采用CC0或CC BY许可。本数据集最终版本PMC-VQA采用CC BY-SA许可协议,以便广泛支持基于生成式模型的医疗视觉问答系统开发。
提供机构:
RadGenome
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作