aisc-team-b1/PMC-Patients
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-b1/PMC-Patients
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: patient_id
dtype: int64
- name: patient_uid
dtype: string
- name: PMID
dtype: int64
- name: file_path
dtype: string
- name: title
dtype: string
- name: patient
dtype: string
- name: age
dtype: string
- name: gender
dtype: string
- name: relevant_articles
dtype: string
- name: similar_patients
dtype: string
splits:
- name: train
num_bytes: 547684991
num_examples: 167034
download_size: 298274057
dataset_size: 547684991
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: cc-by-nc-sa-4.0
language:
- en
tags:
- patient summary
- medical
- biology
size_categories:
- 100K<n<1M
---
*This is a dataset repository made for the AISC class at Harvard Medical School. Please find the original dataset repository here:https://huggingface.co/datasets/zhengyun21/PMC-Patients*
# Dataset Card for PMC-Patients
## Dataset Description
- **Homepage:** https://github.com/pmc-patients/pmc-patients
- **Repository:** https://github.com/pmc-patients/pmc-patients
- **Paper:** https://arxiv.org/pdf/2202.13876.pdf
- **Leaderboard:** https://pmc-patients.github.io/
- **Point of Contact:** zhengyun21@mails.tsinghua.edu.cn
### Dataset Summary
**PMC-Patients** is a first-of-its-kind dataset consisting of 167k patient summaries extracted from case reports in PubMed Central (PMC), 3.1M patient-article relevance and 293k patient-patient similarity annotations defined by PubMed citation graph.
### Supported Tasks and Leaderboards
**This is purely the patient summary dataset with relational annotations. For ReCDS benchmark, refer to [this dataset](https://huggingface.co/datasets/zhengyun21/PMC-Patients-ReCDS)**
Based on PMC-Patients, we define two tasks to benchmark Retrieval-based Clinical Decision Support (ReCDS) systems: Patient-to-Article Retrieval (PAR) and Patient-to-Patient Retrieval (PPR).
For details, please refer to [our paper](https://arxiv.org/pdf/2202.13876.pdf) and [leaderboard](https://pmc-patients.github.io/).
### Languages
English (en).
## Dataset Structure
### PMC-Paitents.csv
This file contains all information about patients summaries in PMC-Patients, with the following columns:
- `patient_id`: string. A continuous id of patients, starting from 0.
- `patient_uid`: string. Unique ID for each patient, with format PMID-x, where PMID is the PubMed Identifier of the source article of the patient and x denotes index of the patient in source article.
- `PMID`: string. PMID for source article.
- `file_path`: string. File path of xml file of source article.
- `title`: string. Source article title.
- `patient`: string. Patient summary.
- `age`: list of tuples. Each entry is in format `(value, unit)` where value is a float number and unit is in 'year', 'month', 'week', 'day' and 'hour' indicating age unit. For example, `[[1.0, 'year'], [2.0, 'month']]` indicating the patient is a one-year- and two-month-old infant.
- `gender`: 'M' or 'F'. Male or Female.
- `relevant_articles`: dict. The key is PMID of the relevant articles and the corresponding value is its relevance score (2 or 1 as defined in the ``Methods'' section).
- `similar_patients`: dict. The key is patient_uid of the similar patients and the corresponding value is its similarity score (2 or 1 as defined in the ``Methods'' section).
## Dataset Creation
If you are interested in the collection of PMC-Patients and reproducing our baselines, please refer to [this reporsitory](https://github.com/zhao-zy15/PMC-Patients).
### Citation Information
If you find PMC-Patients helpful in your research, please cite our work by:
```
@article{zhao2023large,
title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems},
author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng},
journal={Scientific Data},
volume={10},
number={1},
pages={909},
year={2023},
publisher={Nature Publishing Group UK London}
}
```
数据集信息:
特征字段:
- 名称: 患者ID
数据类型: 64位整数类型
- 名称: 患者唯一标识符
数据类型: 字符串类型
- 名称: PubMed标识符(PubMed Identifier,简称PMID)
数据类型: 64位整数类型
- 名称: 文件路径
数据类型: 字符串类型
- 名称: 文献标题
数据类型: 字符串类型
- 名称: 患者摘要
数据类型: 字符串类型
- 名称: 年龄
数据类型: 字符串类型
- 名称: 性别
数据类型: 字符串类型
- 名称: 相关文献
数据类型: 字符串类型
- 名称: 相似患者
数据类型: 字符串类型
划分集:
- 名称: 训练集
字节数: 547684991
样本数: 167034
下载大小: 298274057
数据集总大小: 547684991
配置项:
- 配置名称: 默认配置
数据文件:
- 划分集: 训练集
路径: data/train-*
许可证: cc-by-nc-sa-4.0
语言:
- 英语(en)
标签:
- 患者摘要
- 医学
- 生物学
样本量区间: 10万 < 样本量 < 100万
*本数据集仓库专为哈佛医学院AISC课程打造,原始数据集仓库请访问:https://huggingface.co/datasets/zhengyun21/PMC-Patients*
# PMC-Patients 数据集卡片
## 数据集概况
- **项目主页**: https://github.com/pmc-patients/pmc-patients
- **代码仓库**: https://github.com/pmc-patients/pmc-patients
- **相关论文**: https://arxiv.org/pdf/2202.13876.pdf
- **排行榜**: https://pmc-patients.github.io/
- **联系方式**: zhengyun21@mails.tsinghua.edu.cn
### 数据集概述
**PMC-Patients** 是首个同类大规模数据集,包含从PubMed Central(PubMed Central,简称PMC)的病例报告中提取的16.7万份患者摘要,以及基于PubMed引用图构建的310万条患者-文献关联标注与29.3万条患者-患者相似性标注。
### 支持任务与排行榜
**本数据集仅为带关系标注的患者摘要数据集。如需使用基于检索的临床决策支持(Retrieval-based Clinical Decision Support,简称ReCDS)基准测试,请访问[该数据集](https://huggingface.co/datasets/zhengyun21/PMC-Patients-ReCDS)。**
基于PMC-Patients,我们定义了两项任务以构建基于检索的临床决策支持系统的基准测试:患者-文献检索(Patient-to-Article Retrieval,简称PAR)与患者-患者检索(Patient-to-Patient Retrieval,简称PPR)。详细信息请参阅[我们的论文](https://arxiv.org/pdf/2202.13876.pdf)与[排行榜页面](https://pmc-patients.github.io/)。
### 语言支持
英语(en)。
## 数据集结构
### PMC-Patients.csv
该文件包含PMC-Patients中所有患者摘要的相关信息,字段说明如下:
- `patient_id`: 64位整数类型,为从0起始的连续患者编号。
- `patient_uid`: 字符串类型,为每位患者的唯一标识符,格式为`PMID-x`,其中PMID为该患者来源文献的PubMed标识符,x代表该患者在来源文献中的索引位置。
- `PMID`: 64位整数类型,来源文献的PubMed标识符。
- `file_path`: 字符串类型,来源文献的XML文件路径。
- `title`: 字符串类型,来源文献的标题。
- `patient`: 字符串类型,患者摘要内容。
- `age`: 元组列表类型。每条条目格式为`(数值, 单位)`,其中数值为浮点型,单位为`year`(年)、`month`(月)、`week`(周)、`day`(日)或`hour`(时)。例如`[[1.0, 'year'], [2.0, 'month']]`表示该患者为1岁2个月的婴儿。
- `gender`: 取值为`M`或`F`,分别代表男性或女性。
- `relevant_articles`: 字典类型,键为相关文献的PMID,对应值为其关联评分(按本文“方法”部分定义,取值为2或1)。
- `similar_patients`: 字典类型,键为相似患者的patient_uid,对应值为其相似性评分(按本文“方法”部分定义,取值为2或1)。
## 数据集构建
若您希望了解PMC-Patients的采集流程并复现我们的基准模型,请参阅[该代码仓库](https://github.com/zhao-zy15/PMC-Patients)。
### 引用信息
若您的研究中使用了PMC-Patients,请通过以下格式引用我们的工作:
@article{zhao2023large,
title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems},
author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng},
journal={Scientific Data},
volume={10},
number={1},
pages={909},
year={2023},
publisher={Nature Publishing Group UK London}
}
提供机构:
aisc-team-b1
原始信息汇总
数据集卡片 for PMC-Patients
数据集描述
数据集摘要
PMC-Patients 是一个创新的数据集,包含从PubMed Central(PMC)病例报告中提取的167k患者摘要,以及由PubMed引用图定义的3.1M患者-文章相关性和293k患者-患者相似性注释。
支持的任务和排行榜
基于PMC-Patients,我们定义了两个任务来基准检索式临床决策支持(ReCDS)系统:患者-文章检索(PAR)和患者-患者检索(PPR)。详细信息请参考我们的论文和排行榜。
语言
英语(en)。
数据集结构
PMC-Patients.csv
该文件包含PMC-Patients中所有患者摘要的信息,包含以下列:
patient_id: 字符串。患者的连续ID,从0开始。patient_uid: 字符串。每个患者的唯一ID,格式为PMID-x,其中PMID是患者来源文章的PubMed标识符,x表示患者在来源文章中的索引。PMID: 字符串。来源文章的PMID。file_path: 字符串。来源文章的xml文件路径。title: 字符串。来源文章的标题。patient: 字符串。患者摘要。age: 元组列表。每个条目格式为(value, unit),其中value是一个浮点数,unit表示年龄单位,如year, month, week, day, hour。例如,[[1.0, year], [2.0, month]]表示患者是一个一岁零两个月的婴儿。gender: M或F。男性或女性。relevant_articles: 字典。键是相关文章的PMID,对应的值是其相关性得分(如“方法”部分定义的2或1)。similar_patients: 字典。键是相似患者的patient_uid,对应的值是其相似性得分(如“方法”部分定义的2或1)。
数据集创建
如果您对PMC-Patients的收集和重现我们的基准感兴趣,请参考此仓库。
引用信息
如果您发现PMC-Patients对您的研究有帮助,请通过以下方式引用我们的工作:
@article{zhao2023large, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems}, author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng}, journal={Scientific Data}, volume={10}, number={1}, pages={909}, year={2023}, publisher={Nature Publishing Group UK London} }
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,PMC-Patients数据集通过系统化方法从PubMed Central(PMC)的病例报告中提取患者摘要构建而成。该数据集涵盖了167,034份患者摘要,其构建过程涉及从PMC的XML文件中自动解析病例报告,并依据PubMed引文图定义了310万条患者-文章相关性标注以及29.3万条患者-患者相似性标注,确保了数据来源的权威性与标注的可靠性。
特点
该数据集作为首个大规模患者摘要资源,其核心特点在于整合了丰富的结构化医学信息。每份患者摘要不仅包含年龄、性别等人口统计学数据,还通过相关文章与相似患者两个维度的标注,构建了多层次的关系网络。这些标注基于PubMed引文图量化定义,为检索式临床决策支持系统提供了精准的评估基准,显著提升了数据在医学自然语言处理任务中的实用价值。
使用方法
在临床决策支持研究领域,该数据集主要用于评估检索式系统性能,支持患者-文章检索与患者-患者检索两大核心任务。研究人员可通过加载数据集文件,直接访问患者摘要及其关联的标注信息,进而训练或测试检索模型。数据集遵循标准格式,便于集成至现有机器学习流程,同时其提供的官方基准与排行榜促进了方法间的公平比较与学术交流。
背景与挑战
背景概述
在临床决策支持系统(CDS)的发展历程中,高质量、大规模的患者数据是推动检索式方法进步的关键。PMC-Patients数据集由清华大学等机构的研究团队于2023年构建,其核心研究问题聚焦于如何从海量医学文献中提取结构化的患者摘要,以支持检索式临床决策支持(ReCDS)系统的开发。该数据集从PubMed Central(PMC)的病例报告中提取了16.7万份患者摘要,并标注了310万条患者-文章相关性和29.3万条患者-患者相似性关系,为医学信息检索和相似病例匹配提供了重要基准,显著促进了临床人工智能应用的数据基础建设。
当前挑战
PMC-Patients数据集旨在解决检索式临床决策支持中的核心挑战,即如何从非结构化的医学文本中准确提取患者特征,并建立可靠的关联关系以支持精准检索。构建过程中的主要挑战包括:从异构的PMC病例报告XML文件中自动化解析并标准化患者摘要,确保年龄、性别等关键信息的准确提取;基于PubMed引用图定义并标注患者-文章相关性及患者-患者相似性,这需要处理复杂的医学语义和引用网络,以构建高质量、可扩展的标注体系。
常用场景
经典使用场景
在临床决策支持系统的研究领域,PMC-Patients数据集为检索式临床决策支持(ReCDS)提供了关键基准。该数据集通过从PubMed Central病例报告中提取的16.7万份患者摘要,构建了患者-文章相关性及患者-患者相似性标注,为开发高效的信息检索模型奠定了数据基础。其经典应用场景集中于训练和评估系统在患者-文章检索与患者-患者检索任务中的性能,助力研究人员优化检索算法,提升临床决策的精准度。
实际应用
在实际医疗场景中,PMC-Patients数据集能够辅助构建智能临床诊断支持工具。例如,系统可根据输入的患者症状摘要,快速检索相似病例或相关医学文献,为医生提供诊断参考和治疗方案建议。这种应用不仅缩短了信息查找时间,还通过整合海量病例知识,降低了误诊风险,尤其在罕见病或复杂病症的诊疗过程中展现出显著价值。
衍生相关工作
围绕PMC-Patients数据集,已衍生出多项经典研究工作,主要集中在检索模型的优化与评估框架的构建。例如,基于该数据集开发的ReCDS基准任务,催生了针对患者-文章检索的深度匹配网络,以及利用图神经网络进行患者相似性分析的方法。这些工作不仅丰富了医疗信息检索的技术体系,也为后续研究提供了可复现的实验基础,推动了整个领域向数据驱动范式的转变。
以上内容由遇见数据集搜集并总结生成



