PMC-Patients

Hugging Face2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/THUMedInfo/PMC-Patients

下载链接

链接失效反馈

官方服务：

资源简介：

PMC-Patients是一个开创性的数据集，包含从PubMed Central（PMC）病例报告中提取的167k患者摘要，以及3.1M的患者-文章相关性和293k的患者-患者相似性注释。该数据集支持患者-文章检索（PAR）和患者-患者检索（PPR）任务，数据集语言为英语，文件格式为CSV，包含患者ID、唯一ID、源文章的PMID、文件路径、标题、患者摘要、年龄、性别、相关文章和相似患者等信息。

PMC-Patients is a pioneering dataset that contains 167k patient summaries extracted from case reports in PubMed Central (PMC), alongside 3.1M patient-article relevance annotations and 293k patient-patient similarity annotations. This dataset supports two core tasks: patient-article retrieval (PAR) and patient-patient retrieval (PPR). The dataset is compiled in English, with the file format being CSV. It includes information such as patient ID, unique ID, PMID of the source article, file path, title, patient summary, age, gender, relevant articles, and similar patients.

创建时间：

2024-11-28

原始信息汇总

PMC-Patients 数据集概述

数据集描述

数据集名称: PMC-Patients
数据集类型: 患者摘要数据集
数据来源: PubMed Central (PMC) 中的病例报告
数据规模: 包含167,000个患者摘要，310万条患者-文章关联标注，293,000条患者-患者相似性标注
语言: 英语 (en)
许可证: CC BY-NC-SA 4.0

数据集结构

PMC-Patients.csv

该文件包含PMC-Patients数据集中所有患者摘要的信息，具体字段如下：

patient_id: 字符串类型，患者的连续ID，从0开始。
patient_uid: 字符串类型，每个患者的唯一ID，格式为PMID-x，其中PMID是患者来源文章的PubMed标识符，x表示患者在来源文章中的索引。
PMID: 字符串类型，来源文章的PMID。
file_path: 字符串类型，来源文章的XML文件路径。
title: 字符串类型，来源文章的标题。
patient: 字符串类型，患者摘要。
age: 列表类型，每个条目为(value, unit)格式，其中value为浮点数，unit为年龄单位（year, month, week, day, hour）。例如，[[1.0, year], [2.0, month]]表示患者为1岁2个月大的婴儿。
gender: 字符串类型，M表示男性，F表示女性。
relevant_articles: 字典类型，键为相关文章的PMID，值为其相关性得分（2或1，定义见“方法”部分）。
similar_patients: 字典类型，键为相似患者的patient_uid，值为其相似性得分（2或1，定义见“方法”部分）。

支持的任务和排行榜

任务: 基于PMC-Patients数据集，定义了两个任务来评估基于检索的临床决策支持系统（ReCDS）：患者-文章检索（PAR）和患者-患者检索（PPR）。
排行榜: 请参考排行榜。

引用信息

如果PMC-Patients数据集对你的研究有帮助，请引用以下文献：

@article{zhao2023large, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems}, author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng}, journal={Scientific Data}, volume={10}, number={1}, pages={909}, year={2023}, publisher={Nature Publishing Group UK London} }

搜集汇总

数据集介绍

构建方式

PMC-Patients数据集的构建基于PubMed Central（PMC）中的病例报告，从中提取了167,000份患者摘要。该数据集不仅包含患者的基本信息，如年龄、性别等，还通过PubMed引文图谱定义了310万条患者与文章的相关性标注以及293,000条患者之间的相似性标注。数据集的构建过程依赖于对PMC文章的系统性筛选与信息抽取，确保了数据的全面性与准确性。

特点

PMC-Patients数据集的独特之处在于其不仅提供了丰富的患者摘要信息，还通过引文图谱为每个患者生成了相关文章和相似患者的标注。这种结构化的数据形式使得该数据集在临床决策支持系统（CDSS）的研究中具有极高的应用价值。此外，数据集的规模较大，涵盖了超过25万患者，为大规模模型训练提供了坚实的基础。

使用方法

PMC-Patients数据集可用于支持基于检索的临床决策支持系统（ReCDS）的研究，特别是患者与文章检索（PAR）和患者与患者检索（PPR）任务。用户可以通过访问数据集的GitHub仓库获取详细的使用指南，并根据提供的CSV文件进行数据加载与处理。此外，数据集的结构化设计使得其在自然语言处理和机器学习模型的训练中具有广泛的应用前景。

背景与挑战

背景概述

PMC-Patients数据集是由清华大学等机构的研究人员于2023年发布的，旨在为基于检索的临床决策支持系统（ReCDS）提供大规模的患者摘要数据。该数据集从PubMed Central（PMC）的病例报告中提取了16.7万条患者摘要，并包含了310万条患者与文章的相关性标注以及29.3万条患者间的相似性标注。PMC-Patients的发布填补了该领域的空白，为研究者提供了一个全新的资源，用于开发和评估临床决策支持系统，特别是在患者与文章检索（PAR）和患者间检索（PPR）任务中。

当前挑战

PMC-Patients数据集的构建面临多重挑战。首先，从海量的医学文献中提取患者摘要并确保其准确性和完整性是一项复杂的任务。其次，构建患者与文章的相关性标注和患者间的相似性标注需要大量的专业知识和人工校验，以确保标注的可靠性。此外，数据集的规模和多样性也为模型训练和评估带来了计算资源和算法设计上的挑战。最后，如何在实际临床环境中应用这些数据，并确保其对临床决策的支持效果，也是未来研究中需要解决的重要问题。

常用场景

经典使用场景

PMC-Patients数据集以其独特的患者摘要信息，广泛应用于基于检索的临床决策支持系统（ReCDS）中。该数据集通过提供详细的病例报告摘要，支持患者与文章检索（PAR）和患者与患者检索（PPR）两大任务。这些任务在临床实践中尤为重要，能够帮助医生快速定位相关病例和相似患者，从而提升诊断和治疗的效率与准确性。

解决学术问题

PMC-Patients数据集通过提供大规模的患者摘要和相关性标注，解决了临床决策支持系统中数据稀缺和标注不足的问题。其丰富的患者信息和多维度的标注，为研究者提供了宝贵的资源，推动了基于检索的临床决策支持系统的算法研究和模型优化。这一数据集的发布，极大地促进了相关领域的学术研究进展。

衍生相关工作

基于PMC-Patients数据集，研究者们开展了多项相关工作，包括但不限于改进患者检索算法、优化临床决策支持模型以及开发新的医疗信息系统。这些工作不仅提升了数据集的应用价值，还推动了整个医疗信息学领域的发展。例如，一些研究通过引入深度学习技术，进一步提高了患者检索的准确性和效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集