five

BIOMEDICA|生物医学数据集|多模态数据数据集

收藏
arXiv2025-01-14 更新2025-01-15 收录
生物医学
多模态数据
下载链接:
https://huggingface.co/BIOMEDICA
下载链接
链接失效反馈
资源简介:
BIOMEDICA是由斯坦福大学开发的一个大规模生物医学图像-文本数据集,旨在填补生物医学领域缺乏多样化、公开可访问的多模态数据集的空白。该数据集包含超过2400万条图像-文本对,源自600万篇PubMed Central开放获取的文章,涵盖了广泛的生物医学领域,如病理学、放射学、眼科学、皮肤病学等。数据集通过专家注释和丰富的元数据(如文章标题、摘要、关键词等)进行增强,支持流式处理和高效查询。BIOMEDICA的创建过程包括从PubMed Central提取数据、生成图像特征、聚类并由专家进行注释,最终通过Hugging Face平台公开发布。该数据集的应用领域广泛,旨在推动生物医学视觉-语言模型的发展,支持零样本分类、图像-文本检索等任务,为精准医疗提供数据支持。
提供机构:
斯坦福大学
创建时间:
2025-01-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
BIOMEDICA数据集的构建基于PubMed Central Open Access(PMC-OA)子集,通过一个可扩展的开源框架提取、注释并序列化其中的图像-文本对。该框架从超过600万篇文章中提取了2400万对独特的图像-文本数据,并提供了丰富的元数据和专家指导的注释。数据集的构建过程包括三个主要阶段:数据提取、概念标注和数据序列化。在提取阶段,通过FTP协议从NCBI服务器下载文章和媒体文件,并解析nXML文件以提取图像、标题、摘要、关键词等信息。在标注阶段,使用DINOv2模型生成图像嵌入,并通过PCA和K-means聚类进行概念标注,最终由专家团队对聚类进行注释。在序列化阶段,数据被转换为WebDataset格式,以便通过流式传输高效访问。
使用方法
BIOMEDICA数据集的使用方法主要集中在视觉-语言模型的预训练和评估上。研究人员可以利用该数据集进行持续预训练,以提升模型在生物医学领域的表现。数据集支持流式传输,用户可以通过Hugging Face平台直接访问数据,无需下载整个数据集。此外,BIOMEDICA还提供了丰富的元数据和专家标注,用户可以根据研究需求对数据进行过滤和平衡。例如,可以通过概念过滤策略去除过度代表的主题(如图表),以优化模型的训练效果。数据集还支持零样本分类、图像-文本检索和文本-图像检索等多种任务,研究人员可以利用这些任务评估模型的性能。
背景与挑战
背景概述
BIOMEDICA数据集由斯坦福大学生物医学数据科学系的研究团队于2025年创建,旨在解决生物医学领域中多模态数据集的缺乏问题。该数据集通过提取PubMed Central开放获取子集中的图像和文本对,构建了一个包含超过2400万对图像-文本对的大规模数据集。BIOMEDICA不仅提供了丰富的元数据,还通过专家指导的注释,涵盖了病理学、放射学、分子生物学等多个生物医学领域。该数据集的发布为生物医学视觉-语言模型(VLMs)的发展提供了重要支持,推动了跨领域的精准医疗研究。
当前挑战
BIOMEDICA数据集在构建和应用过程中面临多重挑战。首先,生物医学领域的多样性和复杂性使得数据集的构建需要涵盖广泛的领域,而现有的数据集往往局限于狭窄的领域,无法全面反映生物医学知识的多样性。其次,数据集的构建过程中,专家级注释的获取和隐私问题的处理增加了数据收集和标注的复杂性。此外,数据集中的图像尺寸和分辨率差异较大,导致在模型训练过程中需要处理图像质量不一致的问题。最后,尽管数据集规模庞大,但如何有效利用这些数据来提升模型的零样本分类和图像-文本检索性能,仍然是一个重要的研究方向。
常用场景
经典使用场景
BIOMEDICA数据集在生物医学领域的视觉-语言模型(VLMs)开发中具有广泛的应用。该数据集通过从PubMed Central开放获取子集中提取的2400万张图像-文本对,为研究人员提供了一个大规模、多样化的多模态数据资源。经典的使用场景包括训练和评估生物医学领域的视觉-语言模型,特别是在病理学、放射学、眼科学、皮肤病学、外科学、分子生物学、寄生虫学和细胞生物学等领域的零样本分类任务中。通过BIOMEDICA,研究人员能够构建具有强大泛化能力的模型,从而在多种生物医学任务中实现专家级的性能。
解决学术问题
BIOMEDICA数据集解决了生物医学研究中多模态数据稀缺的问题。现有的数据集往往局限于狭窄的领域,无法涵盖生物医学文献中编码的广泛知识。BIOMEDICA通过提供一个包含2400万图像-文本对的开放数据集,填补了这一空白。该数据集不仅提供了丰富的图像和文本数据,还包含了专家指导的注释和元数据,使得研究人员能够在多个生物医学任务中进行零样本分类、图像-文本检索和文本-图像检索等任务。此外,BIOMEDICA还通过流式训练的方式,减少了计算资源的消耗,显著提升了模型的训练效率。
实际应用
BIOMEDICA数据集在实际应用中具有广泛的潜力。例如,在临床实践中,医生可以通过基于BIOMEDICA训练的视觉-语言模型快速检索与患者症状相关的图像和文本信息,从而辅助诊断和治疗决策。此外,该数据集还可以用于开发自动化工具,帮助研究人员从海量的生物医学文献中提取有用的信息,加速新药研发和疾病治疗的研究进程。通过BIOMEDICA,医疗保健提供者能够更高效地获取最新的医学知识,提升患者护理的质量。
数据集最近研究
最新研究方向
近年来,BIOMEDICA数据集在生物医学领域的视觉-语言模型(VLMs)研究中展现出显著的前沿性。该数据集通过整合PubMed Central开放获取子集中的多模态数据,提供了超过2400万对图像-文本对,涵盖了病理学、放射学、眼科学、皮肤病学、外科手术、分子生物学等多个领域。其最新研究方向集中在通过持续预训练(continual pretraining)提升模型的零样本分类和图像-文本检索性能。研究表明,基于BIOMEDICA数据集训练的模型在40项生物医学任务中平均提升了6.56%的性能,尤其在皮肤病学和眼科学任务中分别实现了29.8%和17.5%的显著改进。此外,该数据集通过流式处理技术优化了大规模数据的访问效率,显著降低了计算资源需求,为生物医学领域的多模态研究提供了强有力的支持。
相关研究论文
  • 1
    BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature斯坦福大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

olympics.csv

该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。

github 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

google/speech_commands

SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。

hugging_face 收录