BIOMEDICA

Name: BIOMEDICA
Creator: 斯坦福大学
Published: 2025-01-14 14:46:14
License: 暂无描述

arXiv2025-01-14 更新2025-01-15 收录

下载链接：

https://huggingface.co/BIOMEDICA

下载链接

链接失效反馈

官方服务：

资源简介：

BIOMEDICA是由斯坦福大学开发的一个大规模生物医学图像-文本数据集，旨在填补生物医学领域缺乏多样化、公开可访问的多模态数据集的空白。该数据集包含超过2400万条图像-文本对，源自600万篇PubMed Central开放获取的文章，涵盖了广泛的生物医学领域，如病理学、放射学、眼科学、皮肤病学等。数据集通过专家注释和丰富的元数据（如文章标题、摘要、关键词等）进行增强，支持流式处理和高效查询。BIOMEDICA的创建过程包括从PubMed Central提取数据、生成图像特征、聚类并由专家进行注释，最终通过Hugging Face平台公开发布。该数据集的应用领域广泛，旨在推动生物医学视觉-语言模型的发展，支持零样本分类、图像-文本检索等任务，为精准医疗提供数据支持。

BIOMEDICA is a large-scale biomedical image-text dataset developed by Stanford University, aiming to fill the gap caused by the lack of diverse, publicly accessible multimodal datasets in the biomedical field. This dataset contains over 24 million image-text pairs, derived from 6 million open-access articles in PubMed Central, covering a broad spectrum of biomedical disciplines including pathology, radiology, ophthalmology, dermatology and more. The dataset is enhanced with expert annotations and rich metadata such as article titles, abstracts, keywords and other relevant information, and supports streaming processing and efficient querying. The development pipeline of BIOMEDICA includes data extraction from PubMed Central, image feature generation, clustering and expert annotation, and it is finally publicly released through the Hugging Face platform. With a wide range of application scenarios, this dataset aims to promote the development of biomedical vision-language models, support tasks such as zero-shot classification and image-text retrieval, and provide data support for precision medicine.

提供机构：

斯坦福大学

创建时间：

2025-01-13

搜集汇总

数据集介绍

构建方式

BIOMEDICA数据集的构建基于PubMed Central Open Access（PMC-OA）子集，通过一个可扩展的开源框架提取、注释并序列化其中的图像-文本对。该框架从超过600万篇文章中提取了2400万对独特的图像-文本数据，并提供了丰富的元数据和专家指导的注释。数据集的构建过程包括三个主要阶段：数据提取、概念标注和数据序列化。在提取阶段，通过FTP协议从NCBI服务器下载文章和媒体文件，并解析nXML文件以提取图像、标题、摘要、关键词等信息。在标注阶段，使用DINOv2模型生成图像嵌入，并通过PCA和K-means聚类进行概念标注，最终由专家团队对聚类进行注释。在序列化阶段，数据被转换为WebDataset格式，以便通过流式传输高效访问。

使用方法

BIOMEDICA数据集的使用方法主要集中在视觉-语言模型的预训练和评估上。研究人员可以利用该数据集进行持续预训练，以提升模型在生物医学领域的表现。数据集支持流式传输，用户可以通过Hugging Face平台直接访问数据，无需下载整个数据集。此外，BIOMEDICA还提供了丰富的元数据和专家标注，用户可以根据研究需求对数据进行过滤和平衡。例如，可以通过概念过滤策略去除过度代表的主题（如图表），以优化模型的训练效果。数据集还支持零样本分类、图像-文本检索和文本-图像检索等多种任务，研究人员可以利用这些任务评估模型的性能。

背景与挑战

背景概述

BIOMEDICA数据集由斯坦福大学生物医学数据科学系的研究团队于2025年创建，旨在解决生物医学领域中多模态数据集的缺乏问题。该数据集通过提取PubMed Central开放获取子集中的图像和文本对，构建了一个包含超过2400万对图像-文本对的大规模数据集。BIOMEDICA不仅提供了丰富的元数据，还通过专家指导的注释，涵盖了病理学、放射学、分子生物学等多个生物医学领域。该数据集的发布为生物医学视觉-语言模型（VLMs）的发展提供了重要支持，推动了跨领域的精准医疗研究。

当前挑战

BIOMEDICA数据集在构建和应用过程中面临多重挑战。首先，生物医学领域的多样性和复杂性使得数据集的构建需要涵盖广泛的领域，而现有的数据集往往局限于狭窄的领域，无法全面反映生物医学知识的多样性。其次，数据集的构建过程中，专家级注释的获取和隐私问题的处理增加了数据收集和标注的复杂性。此外，数据集中的图像尺寸和分辨率差异较大，导致在模型训练过程中需要处理图像质量不一致的问题。最后，尽管数据集规模庞大，但如何有效利用这些数据来提升模型的零样本分类和图像-文本检索性能，仍然是一个重要的研究方向。

常用场景

经典使用场景

BIOMEDICA数据集在生物医学领域的视觉-语言模型（VLMs）开发中具有广泛的应用。该数据集通过从PubMed Central开放获取子集中提取的2400万张图像-文本对，为研究人员提供了一个大规模、多样化的多模态数据资源。经典的使用场景包括训练和评估生物医学领域的视觉-语言模型，特别是在病理学、放射学、眼科学、皮肤病学、外科学、分子生物学、寄生虫学和细胞生物学等领域的零样本分类任务中。通过BIOMEDICA，研究人员能够构建具有强大泛化能力的模型，从而在多种生物医学任务中实现专家级的性能。

解决学术问题

BIOMEDICA数据集解决了生物医学研究中多模态数据稀缺的问题。现有的数据集往往局限于狭窄的领域，无法涵盖生物医学文献中编码的广泛知识。BIOMEDICA通过提供一个包含2400万图像-文本对的开放数据集，填补了这一空白。该数据集不仅提供了丰富的图像和文本数据，还包含了专家指导的注释和元数据，使得研究人员能够在多个生物医学任务中进行零样本分类、图像-文本检索和文本-图像检索等任务。此外，BIOMEDICA还通过流式训练的方式，减少了计算资源的消耗，显著提升了模型的训练效率。

实际应用

BIOMEDICA数据集在实际应用中具有广泛的潜力。例如，在临床实践中，医生可以通过基于BIOMEDICA训练的视觉-语言模型快速检索与患者症状相关的图像和文本信息，从而辅助诊断和治疗决策。此外，该数据集还可以用于开发自动化工具，帮助研究人员从海量的生物医学文献中提取有用的信息，加速新药研发和疾病治疗的研究进程。通过BIOMEDICA，医疗保健提供者能够更高效地获取最新的医学知识，提升患者护理的质量。

数据集最近研究