five

myeongkyunkang/PMC-Patients-images

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/myeongkyunkang/PMC-Patients-images
下载链接
链接失效反馈
官方服务:
资源简介:
PMC-Patients-images数据集包含从PMC-Patients案例报告中提取的图像,这些图像与特定的医学关键词相关。数据集仅使用了开放获取的文章,排除了下载失败的PMC文章和非医学图像。

The PMC-Patients-images dataset contains figures extracted from case reports in PMC-Patients, associated with specific medical keywords. The dataset uses only Open Access articles, excludes PMC articles that failed to download, and automatically excludes non-medical images.
提供机构:
myeongkyunkang
原始信息汇总

PMC-Patients-images

概述

  • 数据集包含从PMC-Patients中提取的病例报告中的图像。
  • 仅使用开放获取的公共使用文章。
  • 排除了无法下载的PMC文章。
  • 自动排除非医学图像(如示意图)。

关键词

  • X-ray
  • Computed Tomography (CT)
  • Magnetic Resonance Imaging (MRI)
  • Ultrasound
  • Positron Emission Tomography (PET)
  • Single Photon Emission Computed Tomography (SPECT)
  • Fluoroscopy
  • Mammography
  • Echocardiography
  • Nuclear Medicine
  • Bone Densitometry
  • Interventional Radiology
  • Optical Coherence Tomography (OCT)
  • Elastography
  • Thermography
  • Functional MRI (fMRI)
  • Diffusion Tensor Imaging (DTI)
  • Angiography
  • Cine MRI
  • Cardiac MRI
  • Barium Swallow
  • Hysterosalpingography
  • Myelography
  • Cholangiography
  • Intravenous Pyelogram (IVP)
  • Arthrography
  • Digital Subtraction Angiography (DSA)
  • Scintigraphy
  • Gallium Scan
  • Ventilation-Perfusion Scan (V/Q)
  • Tomosynthesis

引用

@misc{PMC-Patients-images, title={PMC-Patients-images}, author={Kang, Myeongkyun}, howpublished={url{https://huggingface.co/datasets/myeongkyunkang/PMC-Patients-images}}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
PMC-Patients-images数据集源自PMC-Patients病例报告中的医学影像,通过系统化关键词筛选构建而成。研究者依据涵盖X射线、计算机断层扫描、磁共振成像、超声、正电子发射断层扫描等二十余种常见及特殊影像模态的关键词集合,从开放获取的病例报告中自动提取相关图像。仅采纳Open Access Common Use许可下的文章,并排除了下载失败的PMC文献。为确保数据纯净性,采用自动化流程过滤掉非医学图像(如示意图),最终形成聚焦于真实临床影像的高质量集合。
特点
该数据集的核心特色在于其专业性与广泛覆盖度。它汇集了来自真实病例报告的多模态医学影像,囊括从常规X光到先进功能MRI、弥散张量成像等丰富类型,为医学影像分析提供了多样化的数据源。通过严格的关键词匹配与自动化过滤机制,数据集剔除了无关图像,确保了内容的医学相关性。此外,其来源的开放获取性质促进了研究的可重复性与共享性,使其成为训练和评估医学影像模型的宝贵资源。
使用方法
使用者可直接从HuggingFace平台加载该数据集,将其集成到医学影像相关的机器学习或深度学习工作流中。适用于多模态影像分类、疾病诊断模型训练、图像检索系统开发等场景。数据集以标准化格式提供,便于与PyTorch、TensorFlow等框架配合使用。研究者应引用原始论文以尊重学术贡献,并注意数据仅限开放获取用途,需遵守相关许可协议。建议在应用前进行预处理,如调整图像尺寸或归一化,以适配具体模型需求。
背景与挑战
背景概述
在医学影像分析领域,大规模、多模态数据集的缺乏长期制约着人工智能辅助诊断系统的发展。2024年,研究者Myeongkyun Kang基于PMC-Patients病例报告语料库,构建了PMC-Patients-images数据集,专注于从开放获取的临床文献中提取医学影像。该数据集由HuggingFace平台发布,核心研究问题在于如何系统性地从海量文本中筛选并整理出涵盖X射线、CT、MRI、超声等二十余种成像模态的影像数据,以支持跨模态医学影像理解与多任务学习。其创建不仅为图-文联合建模提供了高质量资源,更推动了病例报告文本与影像之间语义对齐的研究,对医学自然语言处理与计算机视觉的交叉领域具有重要示范意义。
当前挑战
该数据集面临的挑战主要体现在两个层面。在领域问题上,医学影像模态多样且语义复杂,不同成像技术(如PET与CT)在解剖结构和病理表征上差异显著,如何设计通用模型以兼容多模态特征并实现精准诊断仍是未解难题。在构建过程中,挑战更为突出:首先,需从非结构化病例报告中自动识别并排除非医学图像(如示意图),仅保留诊断性影像;其次,关键词匹配策略虽高效,但易遗漏未显式标注成像类型的影像,导致召回率受限;此外,仅采用开放获取文献虽规避版权障碍,却可能引入样本偏差,影响数据集的代表性与泛化能力。
常用场景
经典使用场景
PMC-Patients-images数据集汇聚了来自PMC-Patients病例报告中涵盖多种医学成像模态的影像资料,包括X射线、CT、MRI、超声、PET等三十余种成像技术。该数据集最经典的使用场景在于为医学影像分析领域提供大规模、多模态、真实病例驱动的训练与评估基准。研究者可借助其丰富的图像-文本关联信息,开展跨模态检索、医学图像分类、病灶检测与分割等任务的模型开发,尤其适用于预训练视觉语言模型在医疗领域的迁移学习与微调实验。
衍生相关工作
基于PMC-Patients-images,衍生了一系列经典工作,包括多模态医学影像预训练模型(如MedCLIP、BioViL)的微调与评估、基于对比学习的图像-文本对齐方法在放射学中的应用,以及面向特定疾病(如肺癌、脑肿瘤)的影像分类与分割任务再训练。该数据集也催生了针对医学影像领域数据增强、域适应和噪声标签鲁棒性训练的研究,并作为基准数据集推动开放科学框架下医学AI研究的可重复性与公平比较。
数据集最近研究
最新研究方向
在医学影像与自然语言处理交叉领域,PMC-Patients-images数据集聚焦于从病例报告中系统化提取多模态医学图像,涵盖X光、CT、MRI、PET等二十余种成像模态。该数据集的前沿研究方向主要围绕医学影像的自动化标注与跨模态检索,结合大型语言模型与视觉-语言预训练技术,推动少样本学习、报告生成及诊断辅助系统的发展。其构建源于开放获取的PMC-Patients语料库,通过关键词匹配与自动过滤确保图像质量,为临床影像学与计算病理学提供了大规模、结构化的训练资源,对实现精准医疗与可解释性AI具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作