five

CheXpert|医学影像数据集|深度学习数据集

收藏
arXiv2019-01-22 更新2024-06-21 收录
医学影像
深度学习
下载链接:
https://stanfordmlgroup.github.io/competitions/chexpert
下载链接
链接失效反馈
资源简介:
CheXpert是由斯坦福大学开发的大型胸部放射图像数据集,包含224,316张来自65,240名患者的图像。该数据集设计了一个标签器来自动检测放射学报告中的14种观察结果,捕捉放射图像解释中的不确定性。数据集的创建旨在通过提供大规模、高质量的标注数据,推动深度学习技术在医学影像任务中达到专家级表现。CheXpert特别关注数据集中的不确定性标签,并研究了将这些标签纳入训练过程的不同方法。该数据集的应用领域包括自动化胸部放射图像解释,旨在提高工作流程优先级、临床决策支持和大规模筛查等方面的效率。
提供机构:
斯坦福大学
创建时间:
2019-01-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
CheXpert 数据集的构建方式包括从斯坦福医院收集胸部 X 光片及其相关放射学报告,并设计了一种标签器来自动检测报告中的 14 个常见观察结果。标签器通过三个阶段进行:提及提取、提及分类和提及聚合。提及提取阶段从放射学报告的印象部分提取观察结果的提及;提及分类阶段将提及分类为否定、不确定或肯定;提及聚合阶段根据提及的分类为每个观察结果生成最终标签。数据集包含 224,316 张胸部 X 光片,标注了 65,240 名患者的 14 个常见胸部 X 光片观察结果。
特点
CheXpert 数据集的特点在于其包含大量胸部 X 光片,并具有不确定性标签和放射科医师标注的参考标准评估集。数据集涵盖了 14 个常见观察结果,包括 12 种病理情况以及“支持设备”和“无发现”观察结果。数据集的设计旨在帮助开发和应用胸部 X 光片解读模型,以提高医疗保健的获取和交付。
使用方法
使用 CheXpert 数据集时,研究者可以探索不同的方法来处理不确定性标签,并将这些标签纳入模型的训练过程中。数据集提供了放射科医师标注的验证集和测试集,可以作为参考标准来评估不同算法的性能。研究者可以使用该数据集来开发胸部 X 光片解读模型,并通过验证集和测试集来评估模型的性能。
背景与挑战
背景概述
CheXpert数据集是一组庞大的胸部X光片数据集,由斯坦福大学的计算机科学系、医学系和放射学系的研究人员于2019年创建。该数据集包含了224,316张来自65,240名患者的胸部X光片,并标注了14种常见观察结果。CheXpert旨在通过深度学习方法在胸部X光片解读方面达到专家级水平,从而为医疗保健提供实质性益处,包括改善工作流程优先级、临床决策支持和大规模筛查等。该数据集的创建为胸部X光片解读模型提供了强大的参考标准和专家评分,为研究人员提供了一个标准基准,以评估胸部X光片解读模型的表现。
当前挑战
CheXpert数据集面临的挑战包括:1)解决领域问题,即从多视图胸部X光片中预测14种不同观察结果的概率;2)构建过程中所遇到的挑战,包括从自由文本放射学报告中提取观察结果,并捕获放射学报告中固有的不确定性。为了应对这些挑战,研究人员设计了一种标签器,可以从自由文本放射学报告中提取观察结果,并使用不确定性标签捕获报告中的不确定性。此外,研究人员还探讨了不同的方法来处理不确定性标签,并验证了它们在评估集上的表现。通过在具有强地面真相的测试集上测试,研究人员发现他们最好的模型在检测4种临床相关病理方面优于至少2名放射科医生。
常用场景
经典使用场景
CheXpert数据集广泛应用于医疗影像领域,特别是胸部X光片的自动解读。通过对224,316张胸部X光片的分析,该数据集能够帮助研究人员开发出能够识别14种常见胸部影像学表现的模型。这些表现包括心脏肥大、水肿、积液等。CheXpert数据集的独特之处在于其包含了不确定性标签,这使得模型能够在训练过程中考虑到解读过程中的不确定性,从而提高模型的准确性和鲁棒性。
实际应用
CheXpert数据集在实际应用中具有重要的价值。它可以用于开发胸部X光片解读模型,帮助放射科医生提高诊断效率和准确性。此外,CheXpert数据集还可以用于开发临床决策支持系统,为医生提供辅助诊断建议。这些应用场景对于提高医疗质量和效率具有重要意义。
衍生相关工作
CheXpert数据集的发布推动了胸部X光片解读领域的研究。基于CheXpert数据集,研究人员开发了多种先进的胸部X光片解读模型,如CheXNet和Tienet。这些模型在识别和定位胸部疾病方面取得了显著的成果,为胸部X光片解读领域的研究和应用提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录