five

TorchXRayVision

收藏
arXiv2021-11-01 更新2024-06-21 收录
下载链接:
https://github.com/mlmed/torchxrayvision
下载链接
链接失效反馈
官方服务:
资源简介:
TorchXRayVision是一个包含多个胸部X光数据集的开源软件库,由斯坦福大学、蒙特利尔大学等机构合作创建。该数据集包含超过70万条胸部X光图像,涵盖多种疾病标签,如肺炎、肺结核等。数据集的创建过程涉及图像的收集、标注和预处理,确保数据的质量和可用性。该数据集主要应用于医学影像分析,特别是深度学习模型的训练和评估,旨在提高疾病诊断的准确性和效率。

TorchXRayVision is an open-source software library aggregating multiple chest X-ray datasets, co-developed by institutions including Stanford University, the University of Montreal, and other relevant organizations. The datasets included in this library contain over 700,000 chest X-ray images, covering a wide range of disease labels such as pneumonia and tuberculosis. The creation of these datasets involves image collection, annotation and preprocessing procedures to ensure data quality and usability. It is mainly applied to medical image analysis, especially the training and evaluation of deep learning models, aiming to improve the accuracy and efficiency of disease diagnosis.
提供机构:
斯坦福大学 蒙特利尔大学 魁北克人工智能研究所 人工智能医学与成像中心 纽安斯通讯 丰邦大学 滑铁卢大学 加州大学伯克利分校 都灵理工大学 欧洲通信学院
创建时间:
2021-11-01
搜集汇总
数据集介绍
main_image_url
构建方式
TorchXRayVision数据集通过整合多个公开的胸部X光数据集构建而成,旨在为深度学习研究提供一个统一的接口和预处理链。该数据集的构建方式包括对不同数据集的组织结构、处理流程和训练程序进行标准化,以确保数据集之间的可比性和一致性。通过提供一个通用的数据加载和预处理框架,TorchXRayVision显著简化了研究人员在胸部X光图像分析中的工作流程。
特点
TorchXRayVision数据集的主要特点在于其广泛的覆盖范围和高度标准化的接口。该数据集包含了来自多个知名数据集的胸部X光图像,涵盖了多种病理学标签,如肺不张、心脏肥大和肺炎等。此外,数据集提供了预训练模型,这些模型在不同的数据组合上进行了训练,可作为基线模型或特征提取器使用。这些特点使得TorchXRayVision成为胸部X光图像分析领域中一个极具价值的资源。
使用方法
使用TorchXRayVision数据集时,研究人员可以通过Python包管理工具pip安装该库,并导入所需的模块。数据集提供了多种预处理和后处理组件,支持与torchvision库的兼容,便于进行数据增强。研究人员可以利用预训练模型进行基线比较或生成特征向量用于下游任务。此外,数据集还支持多种使用场景,如模型评估、模型开发和模型失败分析,提供了丰富的工具和接口以支持这些应用。
背景与挑战
背景概述
胸腔X光(Chest X-ray)是世界上最常见的医学影像检查之一,占据了医学计算机视觉出版物和深度学习社区中开放医学影像数据的大部分[UK NHS, 2019]。尽管存在大量数据集和出版物,研究人员在正确比较以往工作和跨不同数据集研究泛化能力方面仍面临挑战。即使数据和代码可用,数据集组织、处理或训练程序中的微小差异也可能显著影响结果,这使得建立有意义的基线成为一项艰巨任务。为了解决这一难题,TorchXRayVision(XRV)应运而生,旨在通过建立可重复研究和一致基线实验的可重用框架,为研究人员提供一个清晰的接口和数据集与模型之间的分离。
当前挑战
TorchXRayVision数据集面临的挑战主要包括:1) 跨不同数据集的泛化能力研究,由于每个数据集的临床数据差异巨大,使得方法在多个数据集上的应用变得困难;2) 数据集构建过程中的标准化问题,不同数据集的组织和处理方式的差异可能导致结果的不一致性。此外,数据集的多样性和复杂性要求研究人员在模型训练和评估中采用统一的处理链和接口,以确保研究的可重复性和结果的可比性。
常用场景
经典使用场景
TorchXRayVision 数据集的经典使用场景主要集中在胸部 X 光图像的深度学习模型评估、开发和研究模型失败与局限性。通过提供多个公开的胸部 X 光数据集的统一接口和预处理链,研究人员可以轻松地在不同数据集之间切换,从而进行模型的鲁棒性评估。此外,预训练模型可用于基线比较或作为特征提取器,支持迁移学习和半监督学习任务。
衍生相关工作
TorchXRayVision 数据集的发布催生了多项相关研究工作,包括使用预训练模型进行迁移学习和少样本学习的研究,如 Cherti & Jitsev [2021] 和 Delbrouck et al. [2021]。此外,该数据集还被用于研究模型在不同数据集上的泛化能力,如 Cohen et al. [2020b] 和 Robinson et al. [2021]。这些研究不仅推动了胸部 X 光图像分析技术的发展,也为其他医疗影像分析领域的研究提供了借鉴。
数据集最近研究
最新研究方向
在医学影像领域,TorchXRayVision数据集的最新研究方向主要集中在模型评估、模型开发以及模型失败与局限性的研究上。研究人员利用该数据集提供的多源胸部X光数据,通过统一的接口和预处理链,进行模型的鲁棒性评估,确保模型在不同数据集上的泛化能力。此外,预训练模型的应用不仅限于基线比较,还扩展到特征提取和迁移学习任务,如患者严重程度评分和临床轨迹预测。研究者们还深入探讨了模型在不同数据分布下的表现,以及如何通过数据增强和模型校准来提升模型的性能和可靠性。这些研究不仅推动了医学影像分析技术的发展,也为临床决策提供了有力的支持。
相关研究论文
  • 1
    TorchXRayVision: A library of chest X-ray datasets and models斯坦福大学 蒙特利尔大学 魁北克人工智能研究所 人工智能医学与成像中心 纽安斯通讯 丰邦大学 滑铁卢大学 加州大学伯克利分校 都灵理工大学 欧洲通信学院 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作