Biomedica Dataset|生物医学数据集|深度学习数据集
收藏github2025-01-15 更新2025-01-16 收录
下载链接:
https://github.com/minwoosun/biomedica-etl
下载链接
链接失效反馈资源简介:
Biomedica Dataset是从PMC-OA子集中提取、转换和注释的档案,以WebDataset或Parquet格式提供,可用于深度学习。该数据集包括24百万张图像,并定期更新。
创建时间:
2025-01-14
原始信息汇总
数据集概述
数据集名称
Biomedica
数据集来源
- 来源: PubMed Central Open Access (PMC-OA) 子集
- 管理方: 美国国立卫生研究院国家医学图书馆 (NIH/NLM)
- 许可: 数据集中的文章根据不同的 Creative Commons 许可进行分发,具体分为商业使用、非商业使用和其他类型。
数据集内容
- 数据量: 包含 24M 篇科学文章,涵盖 10.5M 篇文章和 2.9K 种期刊。
- 数据类型: 包括全文、图像、标题、元数据等。
- 数据格式: 数据集以 WebDataset 和 Parquet 格式提供,适用于深度学习训练和数据分析。
数据集结构
Biomedica 框架由四个主要部分组成:
- Biomedica ETL: 用于从 PMC-OA 提取数据、转换(标准化和注释)并加载到 Hugging Face 的 ETL 管道。
- Biomedica Archive: 包含 PMC-OA 全部内容的标准化磁带存档 (TAR),每年更新一次。
- Biomedica Dataset: 转换和注释后的存档,以 WebDataset 或 Parquet 格式提供。
- Biomedica Family of models (BMC-CLIP): 使用 Biomedica 数据集进行持续预训练的 CLIP 风格模型家族。
数据处理流程
- 提取: 从 PMC-OA 子集下载媒体文件(如全文、标题和图像)并存储为 JSON 文件。
- 转换: 将下载的 JSON 文件序列化为 WebDataset 格式(用于快速训练)和 Parquet 格式(用于高效过滤)。
- 加载: 将两种格式的数据集加载到 Hugging Face。
硬件要求
- CPU: 至少 60 个 CPU
- GPU: 至少 10 个 A600 GPU(或等效)
- 存储: 至少 50 TB 存储空间
使用场景
- 训练 CLIP 风格模型: 提供代码和数据集,支持用户训练自己的生物医学 CLIP 风格模型。
- 数据过滤: 提供过滤管道,用户可以根据需求从标注数据集中获取子集。
数据集更新
- 更新频率: 每年更新一次
- 最新版本: 2024 年 6 月
数据集许可
- 数据集许可: MIT 许可证
- PMC 文章许可: 根据每篇文章的具体许可条款,分为商业使用、非商业使用和其他类型。
贡献与引用
-
贡献: 欢迎贡献,需遵守贡献指南和代码行为准则。
-
引用: 数据集的相关研究已在 arXiv 上发表,引用格式如下:
@misc{lozano2025biomedicaopenbiomedicalimagecaption, title={BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature}, author={Alejandro Lozano and Min Woo Sun and James Burgess and Liangyu Chen and Jeffrey J Nirschl and Jeffrey Gu and Ivan Lopez and Josiah Aklilu and Austin Wolfgang Katzer and Collin Chiu and Anita Rau and Xiaohan Wang and Yuhui Zhang and Alfred Seunghoon Song and Robert Tibshirani and Serena Yeung-Levy}, year={2025}, eprint={2501.07171}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.07171}, }
相关资源
AI搜集汇总
数据集介绍

构建方式
Biomedica数据集的构建过程基于PubMed Central Open Access(PMC-OA)子集,通过ETL(提取、转换、加载)流程实现。首先,从PMC-OA子集中提取媒体文件(如全文、图像和标题),并将其存储为JSON格式。随后,通过标准化和标注处理,将数据转换为适合深度学习训练的格式,最终加载到Hugging Face平台。该流程还包括每周由临床医生和生物学家提供的专家注释,确保数据的丰富性和准确性。
使用方法
使用Biomedica数据集时,用户可以通过Hugging Face平台直接访问WebDataset或Parquet格式的数据。对于训练任务,推荐使用WebDataset格式以优化GPU利用率;对于数据分析和过滤任务,Parquet格式更为合适。用户还可以通过提供的过滤管道按需获取特定子集,或利用预训练的BMC-CLIP模型进行多模态学习。此外,数据集的使用方法还包括通过Colab教程快速上手,以及通过GitHub提供的训练指南进行模型训练。
背景与挑战
背景概述
Biomedica数据集是由斯坦福大学MARVL实验室于2025年推出的一个专注于生物医学领域的多模态数据集,旨在通过整合PubMed Central Open Access(PMC-OA)子集中的2400万篇科学文献,构建一个包含图像、文本和注释的标准化数据集。该数据集的核心研究问题在于如何通过大规模生物医学文献的多模态数据,推动视觉-语言模型(如CLIP风格模型)在生物医学领域的应用。Biomedica不仅提供了数据集的ETL(提取、转换、加载)管道,还发布了基于该数据集预训练的BMC-CLIP模型家族,为生物医学图像分类、图像-文本匹配等任务提供了强有力的支持。该数据集的发布极大地促进了生物医学领域多模态研究的进展,并为相关领域的深度学习模型训练提供了高质量的数据资源。
当前挑战
Biomedica数据集在构建过程中面临多重挑战。首先,数据来源的复杂性是一个主要问题。尽管PMC-OA子集提供了大量开放获取的生物医学文献,但其数据格式多样,且部分文献受版权限制,无法直接用于数据挖掘。其次,数据处理的规模庞大,涉及2400万篇文献的提取、转换和加载,这对计算资源提出了极高的要求,尤其是在CPU和GPU密集型任务中,需要大规模集群的支持。此外,数据标注的准确性和一致性也是一个关键挑战,尽管数据集引入了临床和生物学专家的每周注释,但如何确保这些注释的质量和覆盖范围仍需进一步优化。最后,数据集的发布和更新频率要求ETL管道具备高度的可扩展性和鲁棒性,以应对每年新增的文献数据。
常用场景
经典使用场景
Biomedica数据集在生物医学领域的经典使用场景主要集中在对大规模科学文献中的图像和文本进行联合分析。通过使用CLIP风格的模型,研究人员能够从24M篇科学文章中提取图像和文本的关联信息,进而用于图像标注、文本生成以及跨模态检索等任务。该数据集特别适用于需要处理大量生物医学文献的研究场景,如医学图像分析、疾病诊断辅助系统等。
解决学术问题
Biomedica数据集解决了生物医学领域中跨模态数据处理的难题。传统的研究方法往往难以有效整合图像和文本信息,而该数据集通过提供标准化的图像-文本对,使得研究人员能够更高效地进行跨模态学习。此外,数据集中的专家标注进一步提升了模型的准确性,解决了生物医学文献中复杂术语和图像理解的挑战,推动了生物医学信息检索和知识发现的研究进展。
实际应用
在实际应用中,Biomedica数据集被广泛用于开发智能医疗辅助系统。例如,基于该数据集训练的模型可以自动生成医学图像的描述,帮助医生快速理解复杂的医学影像。此外,该数据集还被用于构建医学文献检索系统,用户可以通过输入图像或文本快速找到相关的医学文献,极大地提高了医学研究和临床决策的效率。
数据集最近研究
最新研究方向
在生物医学领域,Biomedica数据集的最新研究方向聚焦于利用大规模科学文献构建多模态深度学习模型,特别是基于CLIP架构的视觉-语言模型。该数据集通过整合PubMed Central Open Access(PMC-OA)子集中的2400万篇科学文献,提供了丰富的图像-文本对数据,为生物医学图像标注和跨模态检索任务提供了重要支持。近年来,随着多模态学习在医学影像分析、疾病诊断和药物发现等领域的广泛应用,Biomedica数据集的研究方向逐渐向高效数据过滤、模型持续预训练以及跨领域迁移学习等前沿技术拓展。其提供的BMC-CLIP模型家族不仅推动了生物医学领域的多模态研究,还为解决数据稀缺性和模型泛化能力问题提供了新的思路。这一数据集的研究成果有望在医学影像分析、自动化文献挖掘和智能辅助诊断等领域产生深远影响。
以上内容由AI搜集并总结生成
