Hulu-Med-Unified

Hugging Face2026-03-25 更新2026-03-26 收录

下载链接：

https://huggingface.co/datasets/NobleMind/Hulu-Med-Unified

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含五个不同的配置：chexpert、path_vqa、pubmed_vision、quilt_llava和slake。每个配置都有详细的特征描述、数据分割（包括字节数和样本数）、下载大小和数据集大小。 1. **chexpert**：包含胸部X光图像及相关医学特征，如性别、年龄、影像方向（正面/侧面）以及多种胸部疾病的标签（如肺不张、肺水肿等）。训练集包含223,414个样本，验证集包含234个样本。 2. **path_vqa**：包含图像、问题和答案的视觉问答数据集，适用于医学图像理解任务。训练集有19,654个样本，验证集有6,259个样本，测试集有6,719个样本。 3. **pubmed_vision**：包含图像和对话的医学视觉数据集，适用于多模态医学任务。训练集有646,759个样本。 4. **quilt_llava**：包含图像和对话的数据集，适用于视觉语言任务。训练集有107,131个样本。 5. **slake**：包含医学图像、问题、答案和元数据的视觉问答数据集，支持多语言和多模态任务。训练集有9,835个样本，验证集有2,099个样本，测试集有2,094个样本。

创建时间：

2026-03-25

原始信息汇总

数据集概述：Hulu-Med-Unified

数据集基本信息

数据集名称：Hulu-Med-Unified
发布者：NobleMind
许可证：Apache-2.0
数据集地址：https://huggingface.co/datasets/NobleMind/Hulu-Med-Unified

数据集配置与结构

本数据集包含五个独立的配置（config），每个配置代表一个不同的医学视觉数据集。

1. 配置：chexpert

描述：胸部X光影像分类数据集。
数据特征：
- Path：字符串类型。
- Sex：分类标签（0: Male, 1: Female）。
- Age：整数类型。
- Frontal/Lateral：分类标签（0: Frontal, 1: Lateral）。
- AP/PA：分类标签（0: AP, 1: PA, 2: ）。
- No Finding 至 Support Devices：共14个医学观察标签，每个均为分类标签（0: unlabeled, 1: uncertain, 2: absent, 3: present）。
- image：图像类型。
数据划分：
- train：223,414 个样本，大小约 11.48 GB。
- validation：234 个样本，大小约 12.06 MB。
下载大小：约 11.46 GB。
数据集总大小：约 11.49 GB。

2. 配置：path_vqa

描述：病理学视觉问答数据集。
数据特征：
- image：图像类型。
- question：字符串类型。
- answer：字符串类型。
数据划分：
- train：19,654 个样本，大小约 3.64 GB。
- validation：6,259 个样本，大小约 1.15 GB。
- test：6,719 个样本，大小约 1.22 GB。
下载大小：约 877.15 MB。
数据集总大小：约 6.01 GB。

3. 配置：pubmed_vision

描述：基于PubMed文献的医学视觉对话数据集。
数据特征：
- image：字符串列表类型。
- conversations：列表类型，包含from（字符串）和value（字符串）字段。
- id：字符串类型。
- modality：字符串类型。
- body_part：字符串类型。
数据划分：
- train：646,759 个样本，大小约 581.13 MB。
下载大小：约 262.82 MB。
数据集总大小：约 581.13 MB。

4. 配置：quilt_llava

描述：医学视觉语言对话数据集。
数据特征：
- id：字符串类型。
- image：字符串类型。
- conversations：列表类型，包含from（字符串）和value（字符串）字段。
数据划分：
- train：107,131 个样本，大小约 177.20 MB。
下载大小：约 77.95 MB。
数据集总大小：约 177.20 MB。

5. 配置：slake

描述：医学视觉问答数据集，包含多语言支持。
数据特征：
- img_name：字符串类型。
- location：字符串类型。
- answer：字符串类型。
- modality：字符串类型。
- base_type：字符串类型。
- answer_type：字符串类型。
- question：字符串类型。
- qid：整数类型。
- content_type：字符串类型。
- triple：字符串列表类型。
- img_id：整数类型。
- q_lang：字符串类型。
数据划分：
- train：9,835 个样本，大小约 1.65 MB。
- validation：2,099 个样本，大小约 356.21 KB。
- test：2,094 个样本，大小约 353.39 KB。
下载大小：约 259.88 KB。
数据集总大小：约 2.36 MB。

5,000+

优质数据集

54 个

任务类型

进入经典数据集