five

Fakhraddin/NLMCXR

收藏
Hugging Face2023-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fakhraddin/NLMCXR
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: text dtype: string - name: path dtype: string - name: image dtype: image splits: - name: train num_bytes: 1085509616.475 num_examples: 5925 - name: validation num_bytes: 273304928.6 num_examples: 1505 download_size: 1362990038 dataset_size: 1358814545.0749998 --- # Dataset Card for "NLMCXR" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项列表(configs): - 配置名称(config_name): default 数据文件列表(data_files): - 数据集划分(split): train 路径(path): data/train-* - 数据集划分(split): validation 路径(path): data/validation-* 数据集信息(dataset_info): 特征字段(features): - 名称: text 数据类型(dtype): 字符串(string) - 名称: path 数据类型(dtype): 字符串(string) - 名称: image 数据类型(dtype): 图像(image) 数据集划分列表(splits): - 名称: 训练集(train) 字节数: 1085509616.475 样本数量: 5925 - 名称: 验证集(validation) 字节数: 273304928.6 样本数量: 1505 下载总大小: 1362990038 数据集总存储大小: 1358814545.0749998 --- # "NLMCXR" 数据集卡片(Dataset Card) [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Fakhraddin
原始信息汇总

数据集概述

配置信息

  • 默认配置 (default)
    • 训练数据 (train): data/train-*
    • 验证数据 (validation): data/validation-*

数据集特征

  • 文本 (text): 数据类型为字符串 (string)
  • 路径 (path): 数据类型为字符串 (string)
  • 图像 (image): 数据类型为图像 (image)

数据集分割

  • 训练集 (train)
    • 样本数量: 5925
    • 数据量: 1085509616.475字节
  • 验证集 (validation)
    • 样本数量: 1505
    • 数据量: 273304928.6字节

数据集大小

  • 下载大小: 1362990038字节
  • 数据集总大小: 1358814545.0749998字节
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像与自然语言处理的交叉领域,NLMCXR数据集通过系统整合美国国家医学图书馆(NLM)的临床胸部X光影像及其对应放射学报告构建而成。该数据集从公开医学资源中采集原始数据,经过标准化处理,将图像与文本报告配对,形成结构化样本。构建过程注重数据的一致性与可访问性,最终生成了包含训练集与验证集的完整语料,为多模态医学研究提供了基础资源。
特点
NLMCXR数据集的核心特征在于其多模态性质,同时涵盖胸部X光影像和详细的放射学文本描述。影像数据以标准图像格式存储,文本部分则为放射科医师撰写的专业报告,两者精确对齐。数据集规模适中,包含超过七千个样本,划分清晰,便于模型训练与评估。这种图文配对结构使其特别适用于医学影像标注、报告生成及跨模态检索等前沿任务。
使用方法
使用NLMCXR数据集时,研究者可通过HuggingFace平台直接加载,数据集已预分为训练集与验证集。典型应用流程包括加载图像与文本对,利用深度学习框架进行多模态模型训练,例如视觉-语言预训练或生成任务。在医学人工智能领域,该数据集常被用于开发自动报告生成系统或辅助诊断模型,使用时需遵循医学数据伦理,确保研究符合相关规范。
背景与挑战
背景概述
NLMCXR数据集由美国国家医学图书馆(NLM)于2022年创建,旨在推动医学影像与自然语言处理的交叉研究。该数据集的核心研究问题聚焦于胸部X光影像的跨模态理解,即如何从影像中自动生成准确的文本报告,或反之,根据文本描述检索相关影像。这一工作对于辅助临床诊断、减轻放射科医生工作负担具有重要价值,为医学人工智能领域提供了关键的基准资源,促进了多模态学习模型的发展与应用。
当前挑战
该数据集面临的挑战主要存在于两个方面:在领域问题层面,胸部X光影像的跨模态对齐极具复杂性,影像中的细微病理特征与文本报告中的专业术语需精确对应,模型需克服语义鸿沟与噪声干扰,以实现可靠的生成或检索。在构建过程中,数据收集与标注面临严峻考验,医学影像涉及患者隐私与伦理约束,且专业放射科医生的标注成本高昂,确保数据质量与一致性成为关键难点。
常用场景
经典使用场景
在医学影像与自然语言处理的交叉领域,NLMCXR数据集为研究者提供了丰富的胸部X光图像及其对应的文本报告,成为视觉-语言联合建模的经典范例。该数据集通常用于训练和评估多模态深度学习模型,旨在实现从医学图像自动生成结构化诊断描述,或基于文本查询检索相关影像片段。通过整合视觉特征与语义信息,它推动了跨模态理解技术在临床辅助诊断中的初步探索,为自动化放射学报告生成奠定了数据基础。
实际应用
在实际医疗场景中,NLMCXR数据集支撑了临床决策支持系统的开发,能够辅助放射科医生快速生成初步诊断报告,减轻重复性劳动负担。其应用延伸至医学教育领域,作为培训素材帮助医学生理解影像与文本的对应关系。此外,该数据集还可用于构建智能检索工具,使医生能够通过自然语言查询历史相似病例,提升诊断效率与一致性,为精准医疗和远程诊疗提供技术可能。
衍生相关工作
基于NLMCXR数据集,学术界涌现了一系列经典工作,如采用注意力机制的视觉-语言预训练模型,这些模型在图像报告生成和跨模态检索任务上取得了显著进展。后续研究进一步拓展到多任务学习框架,整合病变检测与描述生成,提升了模型的临床实用性。此外,该数据集也催生了针对医学领域适配的Transformer变体,推动了领域专用多模态基础模型的发展,为更广泛的生物医学应用铺平道路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作