five

Hulu-Med-Unified

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/NobleMind/Hulu-Med-Unified
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含五个不同的配置:chexpert、path_vqa、pubmed_vision、quilt_llava和slake。每个配置都有详细的特征描述、数据分割(包括字节数和样本数)、下载大小和数据集大小。 1. **chexpert**:包含胸部X光图像及相关医学特征,如性别、年龄、影像方向(正面/侧面)以及多种胸部疾病的标签(如肺不张、肺水肿等)。训练集包含223,414个样本,验证集包含234个样本。 2. **path_vqa**:包含图像、问题和答案的视觉问答数据集,适用于医学图像理解任务。训练集有19,654个样本,验证集有6,259个样本,测试集有6,719个样本。 3. **pubmed_vision**:包含图像和对话的医学视觉数据集,适用于多模态医学任务。训练集有646,759个样本。 4. **quilt_llava**:包含图像和对话的数据集,适用于视觉语言任务。训练集有107,131个样本。 5. **slake**:包含医学图像、问题、答案和元数据的视觉问答数据集,支持多语言和多模态任务。训练集有9,835个样本,验证集有2,099个样本,测试集有2,094个样本。
创建时间:
2026-03-25
原始信息汇总

数据集概述:Hulu-Med-Unified

数据集基本信息

  • 数据集名称:Hulu-Med-Unified
  • 发布者:NobleMind
  • 许可证:Apache-2.0
  • 数据集地址:https://huggingface.co/datasets/NobleMind/Hulu-Med-Unified

数据集配置与结构

本数据集包含五个独立的配置(config),每个配置代表一个不同的医学视觉数据集。

1. 配置:chexpert

  • 描述:胸部X光影像分类数据集。
  • 数据特征
    • Path:字符串类型。
    • Sex:分类标签(0: Male, 1: Female)。
    • Age:整数类型。
    • Frontal/Lateral:分类标签(0: Frontal, 1: Lateral)。
    • AP/PA:分类标签(0: AP, 1: PA, 2: )。
    • No FindingSupport Devices:共14个医学观察标签,每个均为分类标签(0: unlabeled, 1: uncertain, 2: absent, 3: present)。
    • image:图像类型。
  • 数据划分
    • train:223,414 个样本,大小约 11.48 GB。
    • validation:234 个样本,大小约 12.06 MB。
  • 下载大小:约 11.46 GB。
  • 数据集总大小:约 11.49 GB。

2. 配置:path_vqa

  • 描述:病理学视觉问答数据集。
  • 数据特征
    • image:图像类型。
    • question:字符串类型。
    • answer:字符串类型。
  • 数据划分
    • train:19,654 个样本,大小约 3.64 GB。
    • validation:6,259 个样本,大小约 1.15 GB。
    • test:6,719 个样本,大小约 1.22 GB。
  • 下载大小:约 877.15 MB。
  • 数据集总大小:约 6.01 GB。

3. 配置:pubmed_vision

  • 描述:基于PubMed文献的医学视觉对话数据集。
  • 数据特征
    • image:字符串列表类型。
    • conversations:列表类型,包含from(字符串)和value(字符串)字段。
    • id:字符串类型。
    • modality:字符串类型。
    • body_part:字符串类型。
  • 数据划分
    • train:646,759 个样本,大小约 581.13 MB。
  • 下载大小:约 262.82 MB。
  • 数据集总大小:约 581.13 MB。

4. 配置:quilt_llava

  • 描述:医学视觉语言对话数据集。
  • 数据特征
    • id:字符串类型。
    • image:字符串类型。
    • conversations:列表类型,包含from(字符串)和value(字符串)字段。
  • 数据划分
    • train:107,131 个样本,大小约 177.20 MB。
  • 下载大小:约 77.95 MB。
  • 数据集总大小:约 177.20 MB。

5. 配置:slake

  • 描述:医学视觉问答数据集,包含多语言支持。
  • 数据特征
    • img_name:字符串类型。
    • location:字符串类型。
    • answer:字符串类型。
    • modality:字符串类型。
    • base_type:字符串类型。
    • answer_type:字符串类型。
    • question:字符串类型。
    • qid:整数类型。
    • content_type:字符串类型。
    • triple:字符串列表类型。
    • img_id:整数类型。
    • q_lang:字符串类型。
  • 数据划分
    • train:9,835 个样本,大小约 1.65 MB。
    • validation:2,099 个样本,大小约 356.21 KB。
    • test:2,094 个样本,大小约 353.39 KB。
  • 下载大小:约 259.88 KB。
  • 数据集总大小:约 2.36 MB。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作