zhengyun21/PMC-Patients-ReCDS

Name: zhengyun21/PMC-Patients-ReCDS
Creator: zhengyun21
Published: 2023-11-07 16:21:59
License: 暂无描述

Hugging Face2023-11-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zhengyun21/PMC-Patients-ReCDS

下载链接

链接失效反馈

官方服务：

资源简介：

PMC-Patients是一个首创的数据集，包含从PubMed Central (PMC)的病例报告中提取的167k患者摘要、3.1M患者-文章相关性和293k患者-患者相似性注释，这些注释由PubMed引用图定义。该数据集支持两个任务：Patient-to-Article Retrieval (PAR)和Patient-to-Patient Retrieval (PPR)，用于基准测试基于检索的临床决策支持系统（ReCDS）。数据集的结构包括查询、语料库和qrels（注释），并且提供了数据实例和数据分割的详细信息。

提供机构：

zhengyun21

原始信息汇总

数据集概述

数据集名称

PMC-Patients

数据集描述

PMC-Patients是一个独特的数据集，包含从PubMed Central提取的167,000个患者摘要，以及310万患者-文章相关性和293,000个患者-患者相似性注释，这些注释由PubMed引用图定义。

支持的任务和排行榜

数据集定义了两个基于检索的临床决策支持（ReCDS）系统的基准任务：

患者到文章检索（PAR）
患者到患者检索（PPR）

详细信息请参阅相关论文和排行榜。

数据集结构

数据集以检索任务的形式呈现，数据格式与BEIR基准相同，包括：

查询：存储在jsonl文件中，包含唯一查询标识符和查询文本。
语料库：对于PAR任务，包含1170万PubMed文章；对于PPR任务，包含155,200个参考患者。
Qrels：TREC风格的检索注释文件，以tsv格式存储。

数据实例

提供了查询和Qrels的样本，展示了数据集的具体格式和内容。

数据集创建

有关数据集的收集和基准重现，请参考相关仓库。

引用信息

如需引用此数据集，请使用提供的引用信息。

搜集汇总

数据集介绍

构建方式

在临床决策支持系统的研究领域，PMC-Patients-ReCDS数据集通过系统化方法构建而成。该数据集从PubMed Central（PMC）的病例报告中提取了16.7万份患者摘要，并基于PubMed引文图定义了310万条患者-文章相关性标注以及29.3万条患者-患者相似性标注。其构建过程严格遵循信息检索基准规范，将数据组织为查询、语料库和相关性标注三个部分，确保了数据结构与BEIR基准的一致性，为检索式临床决策支持系统提供了高质量的评估基础。

特点

该数据集在临床信息检索领域展现出显著特色，其核心在于同时支持患者-文章检索与患者-患者检索双重任务。数据集规模宏大，涵盖超过1100万篇PubMed文章和15.5万参考患者，标注体系采用TREC风格的分级评分机制。特别值得注意的是，数据集通过真实的临床病例报告构建患者摘要，保留了丰富的医学细节，同时利用引文网络构建的标注关系为相似性度量提供了可靠的监督信号，这使其成为当前临床文本检索研究中最具代表性的基准之一。

使用方法

使用该数据集时，研究人员可按照标准检索任务流程进行操作。数据集已预分割为训练集、开发集和测试集，用户需分别加载查询文件、语料库文件及标注文件。对于患者-文章检索任务，建议通过Figshare平台获取完整语料库；对于患者-患者检索任务，可直接使用HuggingFace提供的压缩版本。评估时需遵循官方设定的检索指标，并可通过公开的排行榜比较系统性能。数据格式与BEIR基准完全兼容，便于现有检索系统的快速适配与扩展。

背景与挑战

背景概述

PMC-Patients数据集由清华大学研究团队于2023年构建，旨在推动基于检索的临床决策支持系统的发展。该数据集从PubMed Central中提取了16.7万份患者摘要，并标注了310万条患者-文献相关性及29.3万条患者间相似性关系，其核心研究问题聚焦于通过患者相似性与文献检索来辅助临床决策。作为该领域的首创性资源，PMC-Patients为医疗信息检索提供了大规模、结构化的基准，显著促进了临床自然语言处理与智能辅助诊断系统的研究进展。

当前挑战

PMC-Patients数据集致力于解决临床决策支持中的信息检索挑战，即如何从海量医学文献中精准匹配与特定患者案例相关的知识，并识别相似患者以借鉴历史诊疗经验。在构建过程中，数据集面临标注规模庞大带来的质量控制难题，需依据PubMed引用图定义患者-文献相关性及患者间相似性，确保标注的准确性与一致性。此外，数据集的PAR任务语料包含1170万篇PubMed文章，其规模导致了存储与分发的技术挑战，需依赖外部平台进行完整数据托管。

常用场景

经典使用场景

在临床决策支持系统领域，PMC-Patients-ReCDS数据集为检索式临床决策支持（ReCDS）提供了基准测试平台。该数据集通过患者-文章检索和患者-患者检索两大任务，模拟了临床实践中医生依据相似病例或医学文献进行诊断决策的场景。其经典使用场景体现在利用大规模患者摘要与医学文献的关联标注，训练和评估信息检索模型，以提升医疗知识检索的准确性与效率，为智能化临床辅助工具的开发奠定数据基础。

实际应用

在实际医疗应用中，PMC-Patients-ReCDS数据集可赋能临床决策支持系统的开发，辅助医生快速检索相关医学文献或相似病例，以优化诊断流程和治疗方案。例如，在罕见病诊断或复杂病例会诊中，系统能够基于患者症状描述，自动匹配历史病例或最新研究成果，提升诊疗效率与准确性。此外，该数据集还可用于医疗教育工具，帮助医学生通过案例学习增强临床推理能力，推动医疗知识的普及与应用。

衍生相关工作

基于PMC-Patients-ReCDS数据集，已衍生出多项经典研究工作，主要集中在检索模型优化与临床任务适配方面。例如，研究者利用该数据集训练了基于Transformer的密集检索模型，提升了患者-文献匹配的精度；同时，一些工作探索了跨患者相似性计算的新方法，以支持临床预后预测。这些工作不仅推动了信息检索技术在医疗领域的应用，还促进了如BEIR等通用检索基准与临床专项任务的结合，为后续医疗人工智能研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集