AML_project_dataset
收藏Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/TeddyVDobreva/AML_project_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含677个训练样本,总大小为406406字节。每个样本包含以下字段:图像ID(字符串类型)、图像数据(字符串格式)、人工标注的描述文本(字符串列表)、URL信息(三维uint8数组)、LAION生成的描述文本(字符串列表)以及SHA256哈希值(字符串类型)。数据集采用单一训练集划分,默认配置的数据文件路径为train-*。
创建时间:
2026-04-29
原始信息汇总
根据您提供的数据集详情页面信息,以下是该数据集的概述:
数据集概述
数据集名称:AML_project_dataset
来源地址:https://huggingface.co/datasets/TeddyVDobreva/AML_project_dataset
数据集特征
该数据集包含以下字段:
- image_id:字符串类型,表示图像的唯一标识符。
- image:字符串类型,表示图像的路径或编码数据。
- human_caption:字符串列表,包含人工撰写的图像描述。
- url:嵌套列表结构,最内层为
uint8类型,可能表示图像来源的URL编码信息。 - laion_caption:字符串列表,包含来自LAION数据集的图像描述。
- sha256:字符串类型,表示图像的SHA256哈希值,用于数据完整性校验。
数据集划分
- 训练集(train):包含 677 个样本,数据大小为 406,406 bytes。
数据集大小
- 下载大小:375,416 bytes
- 数据集总大小:406,406 bytes
配置文件
- 配置名称:default
- 数据文件路径:
data/train-*(位于数据集的根目录下)
搜集汇总
数据集介绍

构建方式
AML_project_dataset 是一个专为多模态机器学习任务设计的数据集,其构建过程紧密结合了图像与文本信息的双重维度。该数据集包含677个训练样本,每个样本以唯一的 image_id 标识,并存储了对应的图像数据(以字符串形式记录路径或编码)以及与之关联的多条人类撰写的描述性文本(human_caption)。此外,数据集还收录了来自 LAION 的自动生成标题(laion_caption)、图像的原始链接(url)及其安全哈希值(sha256),确保数据来源的可追溯性与完整性。所有样本整合为单一的训练集分割,文件以 Parquet 格式存储,便于高效加载与处理。
特点
该数据集的核心特色在于其多模态对齐与注释的丰富性。每张图像均配备多条人工标注的标题与一条 LAION 生成的标题,为对比学习、图像描述生成及跨模态检索等任务提供了多样化的文本视角。同时,图像数据以 uint8 列表形式存储,保留了原始像素信息,避免了压缩失真。数据集规模精巧(仅677个样本),适合快速原型验证与小规模实验,尤其适合在计算资源受限的场景下探索多模态模型的性能边界。其结构简洁,无额外验证集或测试集分割,便于研究者在统一标准下进行算法比对。
使用方法
使用 AML_project_dataset 时,研究人员可通过 Hugging Face Datasets 库直接加载默认配置,代码如 `load_dataset('AML_project_dataset')` 即可获取训练数据。图像数据需从字符串形式的路径或编码解码为可视张量,而文本列表可被直接用于自然语言处理模块。建议利用 human_caption 与 laion_caption 的差异进行弱监督学习,或将 image_id 作为键值实现跨模态数据的高效索引。由于仅含训练分割,用户需自行划分验证集或采用交叉验证策略。该数据集与 PyTorch 和 TensorFlow 生态兼容,可通过 Dataset.map() 函数灵活应用图像增广与文本预处理流程。
背景与挑战
背景概述
该数据集创建于近年,由参与AML项目的研究机构构建,核心研究问题聚焦于多模态学习与图像描述生成领域。数据集包含677个训练样本,每个样本提供图像、人工标注描述(human_caption)以及自动化工具生成的描述(laion_caption),为对比人类与机器在图像理解上的差异提供了基准。其影响力在于推动跨模态对齐研究,尤其为低资源场景下的图像描述模型优化提供了基础语料,有助于探索标注效率与语义丰富度的平衡。
当前挑战
领域层面,该数据集主要应对图像描述生成中人工标注成本高、自动化描述语义偏差大的问题,需在有限样本下提升模型泛化性与描述准确性。构建过程中,挑战包括确保多来源描述(人工与LAION)的一致性校验、图像版权合规性审核,以及应对来源(url字段)可能的链接失效或内容变更。此外,数据规模较小(仅677例)可能限制模型对复杂场景的学习能力,需通过数据增强或迁移学习策略弥补不足。
常用场景
经典使用场景
该项目构建的数据集聚焦于急性髓系白血病(AML)领域的多模态学习,整合了医学影像与文本描述信息。经典使用场景包括:基于图像与临床文本的联合表征学习,实现AML病理切片的自动分类与诊断辅助;通过对比人类标注与LAION自动生成的描述内容,研究医学图像描述生成任务的鲁棒性与准确性。该数据集还支持跨模态检索实验,例如利用病理图像检索对应的临床报告文本,或反向通过文本描述定位关键病理区域。
解决学术问题
在学术研究中,该数据集主要解决了医学影像领域中标注数据稀缺且模态单一的核心问题。通过融合人工专业标注(human_caption)与大规模预训练生成(laion_caption),为对比学习、跨模态知识蒸馏等前沿方法提供了数据基础。同时,其SHA256哈希与URL字段设计便于可重复性研究,推动了数据溯源与模型验证的标准化进程。这一数据组织方式有效促进了小样本学习与零样本迁移在急性髓系白血病诊断中的探索。
衍生相关工作
以此数据集为基础,衍生工作主要集中于三个方向:一是基于CLIP框架的医学视觉-语言预训练模型,利用human_caption与laion_caption的差异进行对比学习,提升罕见病识别的泛化能力;二是结合扩散模型生成合成AML病理图像,通过数据增强缓解类别不平衡问题;三是构建多任务学习架构,同时回归白血病亚型分类与关键描述文本生成,相关成果已在MICCAI、Nature Biomedical Engineering等平台发表。
以上内容由遇见数据集搜集并总结生成



