ncbi/Open-Patients
收藏Hugging Face2025-05-11 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ncbi/Open-Patients
下载链接
链接失效反馈官方服务:
资源简介:
Open-Patients数据集是一个聚合数据集,包含了来自四个开源数据集的公开患者笔记。总共有180,142条患者描述,每条描述包含两个属性:`_id`和`description`。`_id`标识了数据来源和项目编号,`description`则是从公开数据集中提取的患者笔记。数据集来源包括TREC Clinical Decision Support (CDS) track、TREC Clinical Trials (CT) track、MedQA-USMLE (US track) track和PMC-Patients。每个来源的数据集都有其特定的`_id`格式和用途,如TREC CDS track用于挑战参与者获取相关文章以回答患者笔记中的问题,TREC CT track用于检索与患者症状匹配的临床试验,MedQA-USMLE track用于医学考试中的患者案例问题,PMC-Patients用于评估模型在查找相似患者笔记和相关文章方面的性能。
Open-Patients数据集是一个聚合数据集,包含了来自四个开源数据集的公开患者笔记。总共有180,142条患者描述,每条描述包含两个属性:`_id`和`description`。`_id`标识了数据来源和项目编号,`description`则是从公开数据集中提取的患者笔记。数据集来源包括TREC Clinical Decision Support (CDS) track、TREC Clinical Trials (CT) track、MedQA-USMLE (US track) track和PMC-Patients。每个来源的数据集都有其特定的`_id`格式和用途,如TREC CDS track用于挑战参与者获取相关文章以回答患者笔记中的问题,TREC CT track用于检索与患者症状匹配的临床试验,MedQA-USMLE track用于医学考试中的患者案例问题,PMC-Patients用于评估模型在查找相似患者笔记和相关文章方面的性能。
提供机构:
ncbi
原始信息汇总
数据集概述
数据集名称
Open-Patients
数据集描述
Open-Patients是一个聚合了四个公开患者笔记数据集的数据集,总计包含180,142条患者描述。这些描述均存储在Open-Patients.jsonl文件中。
数据集结构
每个数据集条目包含以下两个属性:
_id- 指示条目来自哪个数据集及其在该数据集中的索引号。description- 从公开患者笔记数据集中提取的精确患者笔记。
数据集来源
数据集由以下四个子数据集组成:
- Text REtrieval Conference (TREC) Clinical Decision Support (CDS) track - 包含2014至2016年的30份患者笔记,其中2016年的笔记为真实患者总结。
- Text REtrieval Conference (TREC) Clinical Trials (CT) track - 包含2021年和2022年的125份患者笔记,均为模拟电子健康记录的合成笔记。
- MedQA-USMLE (US track) track - 包含12,893个涉及患者的多项选择题,来自美国医学执照考试。
- PMC-Patients - 包含167,034份患者笔记,从PubMed Central中精选,用于评估基于检索的临床决策支持系统的性能。
数据集用途
该数据集旨在帮助研究人员基准大型语言模型(LLMs)在医学实体提取和使用这些提取实体进行不同医学计算方面的性能。
许可证
数据集遵循CC-BY-SA-4.0许可证。
搜集汇总
数据集介绍

构建方式
在医学信息学领域,数据整合是推动研究进展的关键环节。Open-Patients数据集通过系统性地聚合四个公开患者笔记数据集构建而成,总计包含180,142条患者描述。其构建过程首先从TREC临床决策支持(CDS)轨道中提取了2014年至2016年的患者笔记,其中2014年和2015年的笔记由具备医学背景的专业人员人工撰写,而2016年的笔记则源自真实的电子健康记录摘要。同时,数据集整合了TREC临床试验(CT)轨道中2021年和2022年的125条合成患者笔记,这些笔记模拟了电子健康记录的入院陈述。此外,从MedQA-USMLE数据集中筛选出12,893条涉及患者案例的多选题,以及从PMC-Patients数据集中收录了167,034条来自PubMed Central的患者笔记。所有数据均以JSON Lines格式统一存储,每条记录包含标识来源的`_id`字段和原始患者描述文本,确保了数据的完整性与可追溯性。
特点
该数据集在医学自然语言处理领域展现出显著的多源性与层次性特征。其核心优势在于融合了合成与真实患者笔记,覆盖了从临床决策支持到医学资格考试的多维场景。数据集中既包含了TREC CDS轨道中基于真实电子健康记录的摘要,也囊括了为模拟临床环境而人工撰写的合成笔记,这种混合结构为模型训练提供了丰富的语义变体。同时,MedQA-USMLE部分的患者案例问题引入了医学推理任务,而PMC-Patients的大规模笔记集合则支持检索式临床决策系统的性能评估。每条记录通过结构化的`_id`字段精确标注数据来源与索引,便于研究者进行细粒度的数据溯源与分析,为大规模语言模型在医学实体抽取与计算任务上的基准测试奠定了坚实基础。
使用方法
在医学人工智能研究中,该数据集为评估语言模型性能提供了标准化基准。使用者可通过加载`Open-Patients.jsonl`文件直接访问所有患者描述,每条记录的`_id`字段揭示了其原始数据集归属,如`trec-cds-2015-03`表示2015年TREC CDS轨道的第三条笔记。研究者可依据`_id`前缀对数据进行分类,针对特定子集开展实验,例如专注于TREC CT轨道的合成笔记以模拟临床检索任务,或利用MedQA-USMLE部分进行医学问答系统开发。数据集支持多种下游应用,包括但不限于医学实体识别、患者相似性检索、临床决策支持系统评估,以及语言模型在医学计算任务中的性能测试。通过引用提供的论文,研究者可确保学术使用的规范性,并基于此数据集推动医学自然语言处理技术的创新与发展。
背景与挑战
背景概述
在医学信息学领域,公开可用的患者临床笔记数据集对于推动临床决策支持系统与大型语言模型的研究至关重要。Open-Patients数据集由Nikhil Khandekar等研究人员于2024年构建,整合了来自TREC临床决策支持与临床试验轨道、MedQA-USMLE以及PMC-Patients四个公开来源的180,142条患者描述。该数据集的核心研究问题聚焦于评估语言模型在医疗实体提取与医学计算任务中的性能,旨在为医学自然语言处理提供标准化基准,从而促进智能医疗辅助工具的发展。
当前挑战
Open-Patients数据集所解决的领域挑战在于医学文本的复杂性与多样性,包括临床术语的歧义性、患者描述的异构结构以及医学推理所需的多步骤计算。在构建过程中,研究人员面临数据整合的难题,例如不同来源的笔记格式差异、合成数据与真实电子健康记录之间的分布偏移,以及从MedQA-USMLE中筛选涉及患者案例的问答对,这些因素均对数据集的代表性与一致性提出了严格要求。
常用场景
经典使用场景
在临床决策支持系统的研究中,Open-Patients数据集常被用于评估信息检索模型的性能。该数据集整合了来自多个公开来源的患者笔记,涵盖了从合成病例到真实电子健康记录的广泛样本。研究人员利用这些笔记模拟临床场景,测试模型在给定患者描述下检索相关医学文献或临床试验的能力。这种应用不仅验证了检索算法的准确性,还为优化临床信息系统的响应效率提供了基准。
解决学术问题
Open-Patients数据集主要解决了医学自然语言处理领域中的关键挑战,即如何从非结构化的患者笔记中提取有效信息以支持学术研究。通过提供大规模、多样化的患者描述,该数据集帮助研究者克服了医学数据稀缺和隐私限制的障碍。它促进了医学实体识别、关系抽取以及临床推理模型的发展,为构建可靠的自动化诊断辅助工具奠定了数据基础。其意义在于推动了跨学科研究,加速了人工智能在医疗领域的实际应用进程。
衍生相关工作
基于Open-Patients数据集,衍生了一系列经典研究工作。例如,MedCalc-Bench框架利用该数据集评估大型语言模型在医学计算任务中的性能,推动了模型在临床数值推理方面的优化。同时,多项研究聚焦于检索增强生成技术,通过结合患者笔记与外部医学知识库,提升模型回答临床问题的准确性。这些工作不仅扩展了数据集的用途,还为医学人工智能的标准化评测提供了重要参考。
以上内容由遇见数据集搜集并总结生成



