PMC-Patients

Name: PMC-Patients
Creator: 清华大学
Published: 2023-04-19 11:24:56
License: 暂无描述

arXiv2023-04-19 更新2024-06-21 收录

下载链接：

https://github.com/pmc-patients/pmc-patients

下载链接

链接失效反馈

官方服务：

资源简介：

PMC-Patients是由清华大学开发的大型患者摘要和关系数据集，包含从PubMed Central提取的167,000份患者摘要，旨在为基于检索的临床决策支持系统提供基准测试。数据集通过简单的启发式方法从案例报告中提取患者摘要，并利用PubMed引用图定义患者文章相关性和患者间相似性。PMC-Patients不仅规模庞大，而且覆盖了广泛的医疗条件，适用于评估患者到文章检索和患者到患者检索任务，展示了在临床决策支持中的实际应用价值。

PMC-Patients is a large-scale patient summary and relational dataset developed by Tsinghua University. It contains 167,000 patient summaries extracted from PubMed Central, and is designed to provide benchmarks for retrieval-based clinical decision support systems. The dataset extracts patient summaries from case reports via simple heuristic methods, and leverages PubMed citation graphs to define patient-article relevance and inter-patient similarity. With its large scale and wide coverage of diverse medical conditions, PMC-Patients is suitable for evaluating patient-to-article retrieval and patient-to-patient retrieval tasks, and demonstrates its practical application value in clinical decision support.

提供机构：

清华大学

创建时间：

2022-02-28

搜集汇总

数据集介绍

构建方式

PMC-Patients数据集的构建基于PubMed Central（PMC）中的病例报告，通过简单的启发式方法提取患者摘要，并利用PubMed的引用图来定义患者与文章之间的相关性以及患者与患者之间的相似性。具体步骤包括：首先，通过正则表达式识别PMC文章中的患者摘要部分；其次，提取患者摘要候选者，并过滤掉不符合条件的候选者（如过短、非英文或缺乏人口统计信息的摘要）；最后，利用PubMed引用图自动标注患者与文章的相关性以及患者之间的相似性。

特点

PMC-Patients数据集包含167,000个患者摘要，这些摘要来自141,000篇PMC文章，涵盖了广泛的医学条件和人口统计信息。数据集还包含310万条患者与文章的相关性标注和29.3万条患者与患者之间的相似性标注，是目前最大规模的临床决策支持系统（ReCDS）基准数据集之一。患者摘要的质量高，且数据集在患者多样性和医学条件覆盖方面表现出色。

使用方法

PMC-Patients数据集主要用于评估基于检索的临床决策支持系统（ReCDS），具体包括两个任务：患者到文章检索（ReCDS-PAR）和患者到患者检索（ReCDS-PPR）。在ReCDS-PAR任务中，系统需要从PubMed中检索与给定患者相关的文章；在ReCDS-PPR任务中，系统需要从PMC-Patients数据集中检索与给定患者相似的其他患者。数据集还提供了多个基线模型的评估结果，展示了其在临床决策支持中的实际应用价值。

背景与挑战

背景概述

PMC-Patients数据集由清华大学的研究团队于2023年提出，旨在为基于检索的临床决策支持系统（ReCDS）提供大规模的患者摘要和关系标注。该数据集从PubMed Central（PMC）的病例报告中提取了167,000个患者摘要，并基于PubMed的引用图标注了310万条患者-文章相关性和29.3万条患者-患者相似性关系。PMC-Patients的创建填补了临床决策支持领域缺乏大规模、多样化患者数据集的空白，为ReCDS系统的开发和评估提供了重要资源。该数据集的核心研究问题是通过检索相关文献和相似患者，辅助临床医生在诊断、测试和治疗决策中做出更准确的判断。PMC-Patients的发布对推动临床信息检索和自然语言处理技术的发展具有重要意义。

当前挑战

PMC-Patients数据集在构建和应用中面临多重挑战。首先，患者-文章检索（ReCDS-PAR）和患者-患者检索（ReCDS-PPR）任务的复杂性要求模型能够同时处理语义匹配和精确词汇匹配，而现有基线模型在P@10和R@1k等指标上表现仍不理想。其次，数据集的构建依赖于PubMed引用图，尽管自动标注的精度较高，但仍存在噪声和偏差，尤其是在患者相似性定义上，如何准确捕捉多维度的临床特征仍是一个难题。此外，患者摘要的长度远超BERT等模型的输入限制，导致信息丢失，进一步增加了检索任务的难度。最后，尽管PMC-Patients覆盖了广泛的医学条件，但其数据来源主要局限于病例报告，可能无法完全代表真实世界中的患者多样性，限制了模型的泛化能力。

常用场景

经典使用场景

PMC-Patients数据集主要用于支持基于检索的临床决策支持系统（ReCDS）的基准测试。通过提供大规模的病例摘要和相关文献，该数据集使得研究人员能够开发和评估从患者到文献（Patient-to-Article Retrieval, PAR）以及从患者到患者（Patient-to-Patient Retrieval, PPR）的检索任务。这些任务旨在帮助临床医生快速找到与特定患者相关的科学文献或相似病例，从而辅助诊断和治疗决策。

解决学术问题

PMC-Patients数据集解决了临床决策支持系统中缺乏大规模、多样化患者摘要和公开可用的患者级别注释数据的问题。通过提供167,000个患者摘要、310万条患者-文献相关注释和293,000条患者-患者相似性注释，该数据集为ReCDS系统的开发提供了丰富的资源。这不仅推动了信息检索和自然语言处理技术在临床领域的应用，还为研究人员提供了一个标准化的基准，用于评估和改进检索算法的性能。

衍生相关工作

PMC-Patients数据集推动了多个相关领域的研究工作。基于该数据集，研究人员开发了多种检索模型，包括稀疏检索器（如BM25）、密集检索器（如基于BERT的模型）以及最近邻检索器。此外，该数据集还激发了针对临床文本的预训练语言模型（如PubMedBERT、Clinical BERT等）的研究，这些模型在生物医学领域的自然语言处理任务中表现出色。PMC-Patients还为临床决策支持系统的实际应用提供了丰富的案例研究，展示了其在罕见病诊断、多病共治和个性化治疗中的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集