PMC-Patients

github2023-12-20 更新2024-05-31 收录

下载链接：

https://github.com/pmc-patients/pmc-patients

下载链接

链接失效反馈

官方服务：

资源简介：

PMC-Patients是一个首创的数据集，包含从PubMed Central的病例报告中提取的16.7万份患者摘要，以及310万份患者-文章相关性和29.3万份患者-患者相似性注释，这些注释由PubMed引用图定义。

PMC-Patients is a pioneering dataset comprising 167,000 patient summaries extracted from case reports in PubMed Central, along with 3.1 million patient-article correlations and 293,000 patient-patient similarity annotations, as defined by the PubMed citation graph.

创建时间：

2023-04-05

原始信息汇总

数据集概述

名称: PMC-Patients

描述: PMC-Patients 是一个独特的数据集，包含从PubMed Central (PMC) 提取的167k患者摘要，以及3.1M患者-文章相关性和293k患者-患者相似性注释，这些注释基于PubMed引用图定义。

数据集内容

核心文件

PMC-Patients.json: 包含患者摘要、人口统计信息和关系注释的JSON文件。
- patient_id: 患者连续ID，从0开始。
- patient_uid: 患者唯一ID，格式为PMID-x。
- PMID: 源文章的PubMed标识符。
- file_path: 源文章的XML文件路径。
- title: 源文章标题。
- patient: 患者笔记。
- age: 年龄信息，格式为(值, 单位)。
- gender: 性别，M或F。
- relevant_articles: 相关文章的PMID及其相关性分数。
- similar_patients: 相似患者的patient_uid及其相似性分数。

ReCDS基准

任务: 患者到文章检索(PAR)和患者到患者检索(PPR)。
数据格式: 遵循BEIR基准，包括查询、语料库和qrels。
- 查询: 存储为jsonl文件，包含_id和text字段。
- 语料库: 对于PAR包含11.7M PubMed文章，对于PPR包含155.2k参考患者。
- Qrels: TREC风格的检索注释文件，格式为tsv，包含查询标识符、语料库标识符和分数。

数据下载

可通过Figshare或Huggingface免费下载，无需数据使用协议。

评估与提交

提供基于BEIR的评估代码，用于评估模型并生成检索结果。
提交至leaderboard需通过电子邮件发送检索分数和系统描述至zhengyun21@mails.tsinghua.edu.cn。

引用信息

引用格式:

@article{Zhao2023ALD, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems.}, author={Zhengyun Zhao and Qiao Jin and Fangyuan Chen and Tuorui Peng and Sheng Yu}, journal={Scientific data}, year={2023}, volume={10 1}, pages={909}, url={https://api.semanticscholar.org/CorpusID:266360591} }

搜集汇总

数据集介绍

构建方式

PMC-Patients数据集通过从PubMed Central（PMC）中提取的167,000份患者摘要构建而成，这些摘要来源于病例报告。此外，数据集还包含了310万条患者与文章的相关性标注以及293,000条患者与患者之间的相似性标注，这些标注基于PubMed的引用图谱。数据集的核心文件以JSON格式存储，包含了患者的基本信息、摘要、年龄、性别以及与相关文章和相似患者的关联信息。

使用方法

用户可以通过Figshare或Huggingface平台免费下载PMC-Patients数据集，下载后需解压缩并保持`datasets`文件夹在根目录中以使用提供的评估代码。数据集支持两种任务：患者到文章检索（PAR）和患者到患者检索（PPR）。用户可以使用提供的评估代码进行模型评估，并将结果提交至官方排行榜。提交时需将检索结果以特定格式存储，并通过电子邮件发送至指定地址。

背景与挑战

背景概述

PMC-Patients数据集是首个从PubMed Central（PMC）中提取的包含16.7万患者摘要的独特数据集，涵盖了310万患者与文章的相关性标注以及29.3万患者间的相似性标注。该数据集由Zhengyun Zhao等人于2023年创建，旨在为基于检索的临床决策支持系统（ReCDS）提供基准测试任务，包括患者到文章检索（PAR）和患者到患者检索（PPR）。PMC-Patients不仅丰富了临床数据资源，还为研究者提供了一个评估和开发相关算法的标准平台，对推动医疗信息检索技术的发展具有重要意义。

当前挑战

PMC-Patients数据集在构建过程中面临多项挑战。首先，从海量的PubMed Central文献中提取和标注患者信息，确保数据的准确性和完整性是一项艰巨的任务。其次，定义患者与文章、患者与患者之间的相关性和相似性评分标准，需要结合医学领域的专业知识，确保标注的科学性和实用性。此外，数据集的规模庞大，涉及1170万篇PubMed文章和15.5万参考患者，如何高效地存储、处理和分析这些数据也是一大挑战。最后，为确保数据集的广泛应用，需提供易于使用的数据格式和评估工具，这对数据集的可用性和推广提出了更高要求。

常用场景

经典使用场景

PMC-Patients数据集的经典使用场景主要集中在基于检索的临床决策支持系统（ReCDS）中，具体包括患者到文章检索（PAR）和患者到患者检索（PPR）。通过这些任务，研究人员可以利用数据集中的患者摘要、人口统计信息以及相关文章和相似患者的标注，构建和评估高效的检索模型，以支持临床决策过程中的信息检索需求。

解决学术问题

PMC-Patients数据集解决了临床决策支持系统中信息检索的关键问题，特别是在处理大规模患者数据时，如何高效地检索相关医学文献和相似患者案例。这不仅提升了临床决策的准确性和效率，还为研究者提供了一个标准化的基准，用于评估和比较不同检索算法的性能，推动了相关领域的技术进步。

实际应用

在实际应用中，PMC-Patients数据集被广泛用于开发和优化临床决策支持工具。例如，医生可以通过检索系统快速找到与当前患者情况相似的病例和相关医学文献，从而辅助诊断和治疗方案的制定。此外，该数据集还支持医疗研究机构进行大规模的临床数据分析，以发现潜在的疾病模式和治疗效果。

数据集最近研究