zhengyun21/PMC-Patients
收藏Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhengyun21/PMC-Patients
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-sa-4.0
language:
- en
tags:
- patient summary
- medical
- biology
size_categories:
- 100K<n<1M
---
# Dataset Card for PMC-Patients
## Dataset Description
- **Homepage:** https://github.com/pmc-patients/pmc-patients
- **Repository:** https://github.com/pmc-patients/pmc-patients
- **Paper:** https://arxiv.org/pdf/2202.13876.pdf
- **Leaderboard:** https://pmc-patients.github.io/
- **Point of Contact:** zhengyun21@mails.tsinghua.edu.cn
### Dataset Summary
**PMC-Patients** is a first-of-its-kind dataset consisting of 167k patient summaries extracted from case reports in PubMed Central (PMC), 3.1M patient-article relevance and 293k patient-patient similarity annotations defined by PubMed citation graph.
### Supported Tasks and Leaderboards
**This is purely the patient summary dataset with relational annotations. For ReCDS benchmark, refer to [this dataset](https://huggingface.co/datasets/zhengyun21/PMC-Patients-ReCDS)**
Based on PMC-Patients, we define two tasks to benchmark Retrieval-based Clinical Decision Support (ReCDS) systems: Patient-to-Article Retrieval (PAR) and Patient-to-Patient Retrieval (PPR).
For details, please refer to [our paper](https://arxiv.org/pdf/2202.13876.pdf) and [leaderboard](https://pmc-patients.github.io/).
### Languages
English (en).
## Dataset Structure
### PMC-Paitents.csv
This file contains all information about patients summaries in PMC-Patients, with the following columns:
- `patient_id`: string. A continuous id of patients, starting from 0.
- `patient_uid`: string. Unique ID for each patient, with format PMID-x, where PMID is the PubMed Identifier of the source article of the patient and x denotes index of the patient in source article.
- `PMID`: string. PMID for source article.
- `file_path`: string. File path of xml file of source article.
- `title`: string. Source article title.
- `patient`: string. Patient summary.
- `age`: list of tuples. Each entry is in format `(value, unit)` where value is a float number and unit is in 'year', 'month', 'week', 'day' and 'hour' indicating age unit. For example, `[[1.0, 'year'], [2.0, 'month']]` indicating the patient is a one-year- and two-month-old infant.
- `gender`: 'M' or 'F'. Male or Female.
- `relevant_articles`: dict. The key is PMID of the relevant articles and the corresponding value is its relevance score (2 or 1 as defined in the ``Methods'' section).
- `similar_patients`: dict. The key is patient_uid of the similar patients and the corresponding value is its similarity score (2 or 1 as defined in the ``Methods'' section).
## Dataset Creation
If you are interested in the collection of PMC-Patients and reproducing our baselines, please refer to [this reporsitory](https://github.com/zhao-zy15/PMC-Patients).
### Citation Information
If you find PMC-Patients helpful in your research, please cite our work by:
```
@article{zhao2023large,
title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems},
author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng},
journal={Scientific Data},
volume={10},
number={1},
pages={909},
year={2023},
publisher={Nature Publishing Group UK London}
}
```
license: CC BY-NC-SA 4.0(知识共享署名-非商业性使用-相同方式共享4.0协议)
language:
- en(英语)
tags:
- patient summary(患者摘要)
- medical(医疗)
- biology(生物学)
size_categories:
- 100K<n<1M(规模类别:10万至100万条数据)
---
# PMC-Patients 数据集卡片
## 数据集描述
- **主页**:https://github.com/pmc-patients/pmc-patients
- **代码仓库**:https://github.com/pmc-patients/pmc-patients
- **相关论文**:https://arxiv.org/pdf/2202.13876.pdf
- **排行榜**:https://pmc-patients.github.io/
- **联系方式**:zhengyun21@mails.tsinghua.edu.cn
### 数据集概况
**PMC-Patients** 是首个同类数据集,包含从PubMed Central(PMC)的病例报告中提取的16.7万条患者摘要,以及由PubMed引用图谱定义的310万条患者-文献相关性标注与29.3万条患者-患者相似性标注。
### 支持的任务与排行榜
**本数据集仅为带关系标注的患者摘要数据集。如需使用ReCDS基准测试数据集,请参阅[此数据集](https://huggingface.co/datasets/zhengyun21/PMC-Patients-ReCDS)**。
基于PMC-Patients,我们定义了两项任务以评估基于检索的临床决策支持(Retrieval-based Clinical Decision Support, ReCDS)系统:患者-文献检索(Patient-to-Article Retrieval, PAR)与患者-患者检索(Patient-to-Patient Retrieval, PPR)。详细信息请参阅[我们的论文](https://arxiv.org/pdf/2202.13876.pdf)与[排行榜](https://pmc-patients.github.io/)。
### 语言
英语(en)。
## 数据集结构
### PMC-Patients.csv
该文件包含PMC-Patients中所有患者摘要的相关信息,共包含以下字段:
- `patient_id`:字符串类型。患者连续编号,起始编号为0。
- `patient_uid`:字符串类型。每位患者的唯一标识符,格式为PMID-x,其中PubMed标识符(PMID)为患者来源文献的PubMed标识符,x代表该患者在来源文献中的患者索引。
- `PMID`:字符串类型。来源文献的PubMed标识符。
- `file_path`:字符串类型。来源文献的XML文件路径。
- `title`:字符串类型。来源文献标题。
- `patient`:字符串类型。患者摘要内容。
- `age`:元组列表。每个条目格式为`(数值, 单位)`,其中数值为浮点型,单位涵盖'year'(年)、'month'(月)、'week'(周)、'day'(日)与'hour'(时)。示例:`[[1.0, 'year'], [2.0, 'month']]` 表示该患者为1岁2个月大的婴儿。
- `gender`:取值为'M'或'F',分别对应男性与女性。
- `relevant_articles`:字典类型。键为相关文献的PMID,对应的值为其相关性评分(分为2或1,详见「方法」章节)。
- `similar_patients`:字典类型。键为相似患者的patient_uid,对应的值为其相似性评分(分为2或1,详见「方法」章节)。
## 数据集构建
若您对PMC-Patients的收集流程与复现我们的基线模型感兴趣,请参阅[此代码仓库](https://github.com/zhao-zy15/PMC-Patients)。
### 引用信息
若您的研究中使用了PMC-Patients数据集,请通过以下方式引用我们的工作:
@article{zhao2023large,
title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems},
author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng},
journal={Scientific Data},
volume={10},
number={1},
pages={909},
year={2023},
publisher={Nature Publishing Group UK London}
}
提供机构:
zhengyun21
原始信息汇总
数据集概述
数据集名称
PMC-Patients
数据集描述
PMC-Patients是一个独特的数据集,包含从PubMed Central提取的167k患者摘要,以及3.1M患者-文章相关性和293k患者-患者相似性注释,这些注释由PubMed引用图定义。
支持的任务和排行榜
数据集定义了两个任务以基准测试基于检索的临床决策支持(ReCDS)系统:患者到文章检索(PAR)和患者到患者检索(PPR)。详细信息请参考论文和排行榜。
语言
英语(en)。
数据集结构
数据集主要文件为PMC-Paitents.csv,包含以下列:
patient_id: 字符串。患者连续ID,从0开始。patient_uid: 字符串。每个患者的唯一ID,格式为PMID-x,其中PMID是患者来源文章的PubMed标识符,x表示患者在来源文章中的索引。PMID: 字符串。来源文章的PMID。file_path: 字符串。来源文章的xml文件路径。title: 字符串。来源文章标题。patient: 字符串。患者摘要。age: 列表,每个条目为(value, unit)格式,value是浮点数,unit是年龄单位,如year, month, week, day, hour。gender: M或F。男性或女性。relevant_articles: 字典。键为相关文章的PMID,值为其相关性分数(2或1)。similar_patients: 字典。键为相似患者的patient_uid,值为其相似性分数(2或1)。
引用信息
若您发现PMC-Patients对您的研究有帮助,请引用:
@article{zhao2023large, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems}, author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng}, journal={Scientific Data}, volume={10}, number={1}, pages={909}, year={2023}, publisher={Nature Publishing Group UK London} }
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,PMC-Patients数据集的构建体现了从海量文献中提取结构化知识的先进方法。该数据集源自PubMed Central(PMC)中的病例报告,通过自动化流程提取了16.7万份患者摘要。构建过程涉及解析PMC的XML格式文章,识别并标准化患者的人口统计学信息如年龄与性别,同时依据PubMed引用图谱定义了310万条患者-文章关联及29.3万条患者-患者相似性注释,确保了数据的一致性与可追溯性。
使用方法
在临床决策支持研究中,PMC-Patients主要用于评估检索式系统的效能。研究者可借助数据集中的患者摘要与关联注释,开展患者-文章检索与患者-患者检索两项核心任务。具体使用时,需加载CSV格式文件,依据patient_id或patient_uid索引患者记录,并利用relevant_articles与similar_patients字段中的评分进行模型训练与验证,相关基准测试可参考配套的ReCDS数据集与官方排行榜。
背景与挑战
背景概述
在医疗人工智能领域,临床决策支持系统的发展亟需高质量、大规模的真实世界数据作为支撑。PMC-Patients数据集由清华大学研究团队于2022年率先构建,并于2023年在《Scientific Data》期刊正式发布,标志着检索式临床决策支持研究迈入新阶段。该数据集从PubMed Central的病例报告中精心提取了16.7万份患者摘要,并标注了310万条患者-文献相关性及29.3万条患者-患者相似性关系,旨在为医疗信息检索与相似病例匹配提供基准资源。其创新性在于首次系统整合了患者临床特征与学术文献间的多维关联,为构建下一代智能临床辅助工具奠定了数据基石。
当前挑战
该数据集致力于解决检索式临床决策支持中的核心难题:如何从海量医学文献中精准定位与特定患者病例相关的知识,以及如何高效识别相似历史病例以辅助诊疗决策。构建过程中面临多重挑战:医学文本的专业性与复杂性要求精确的实体识别与关系抽取;病例报告的非结构化叙事风格需要设计专门的信息提取流程;大规模标注工作必须保证医学概念的准确性与一致性;此外,还需克服患者隐私信息脱敏与数据标准化处理的工程技术难题。这些挑战共同塑造了数据集的技术深度与应用边界。
常用场景
经典使用场景
在医学信息检索领域,PMC-Patients数据集为检索式临床决策支持系统提供了关键资源。该数据集从PubMed Central病例报告中提取了16.7万份患者摘要,并标注了患者与文献、患者与患者之间的关联性,为构建精准的医疗知识检索模型奠定了数据基础。其经典使用场景聚焦于患者到文献检索和患者到患者检索两大任务,通过模拟临床实践中医生参考相似病例或相关医学文献的决策过程,推动智能医疗辅助系统的发展。
解决学术问题
该数据集有效解决了临床决策支持系统中信息检索的若干核心学术问题。传统医学检索往往依赖关键词匹配,难以捕捉复杂的临床语义关联。PMC-Patients通过大规模标注的患者摘要与相关性评分,为研究患者表征学习、跨模态医学信息对齐以及细粒度相关性建模提供了基准。其意义在于将临床决策支持从简单的文档检索提升至以患者为中心的语义检索范式,促进了医学人工智能在可解释性和实用性方面的进步。
实际应用
在实际医疗场景中,PMC-Patients数据集能够赋能临床决策支持工具的开发与应用。基于该数据集训练的检索模型可集成至电子健康记录系统,帮助医生快速查找与当前患者病情相似的既往病例或最新医学文献,从而辅助诊断方案制定和治疗策略选择。此外,在医学教育领域,该数据集可用于构建智能病例检索平台,支持医学生和住院医师进行病例分析与学习,提升临床推理能力。
数据集最近研究
最新研究方向
在生物医学信息学领域,PMC-Patients数据集作为首个从PubMed Central病例报告中提取的大规模患者摘要资源,正推动检索式临床决策支持系统的前沿探索。该数据集通过患者-文章关联与患者-患者相似性标注,为医疗文本检索任务提供了结构化基准,促进了基于深度学习的跨模态检索模型的发展。近期研究聚焦于利用预训练语言模型增强患者表征学习,以提升罕见病诊疗中的相似病例匹配精度,同时结合图神经网络挖掘医学文献间的复杂引用关系,优化临床决策的时效性与准确性。随着PMC-Patients-V2版本的发布,数据规模扩展至25万患者摘要,进一步支撑了真实世界证据生成与个性化医疗推荐系统的创新应用,为数字化医疗转型注入新动力。
以上内容由遇见数据集搜集并总结生成



