five

PMC-Patients

收藏
github2023-12-20 更新2024-05-31 收录
下载链接:
https://github.com/pmc-patients/pmc-patients
下载链接
链接失效反馈
官方服务:
资源简介:
PMC-Patients是一个首创的数据集,包含从PubMed Central的病例报告中提取的16.7万份患者摘要,以及310万份患者-文章相关性和29.3万份患者-患者相似性注释,这些注释由PubMed引用图定义。

PMC-Patients is a pioneering dataset comprising 167,000 patient summaries extracted from case reports in PubMed Central, along with 3.1 million patient-article correlations and 293,000 patient-patient similarity annotations, as defined by the PubMed citation graph.
创建时间:
2023-04-05
原始信息汇总

数据集概述

名称: PMC-Patients

描述: PMC-Patients 是一个独特的数据集,包含从PubMed Central (PMC) 提取的167k患者摘要,以及3.1M患者-文章相关性和293k患者-患者相似性注释,这些注释基于PubMed引用图定义。

数据集内容

核心文件

  • PMC-Patients.json: 包含患者摘要、人口统计信息和关系注释的JSON文件。
    • patient_id: 患者连续ID,从0开始。
    • patient_uid: 患者唯一ID,格式为PMID-x。
    • PMID: 源文章的PubMed标识符。
    • file_path: 源文章的XML文件路径。
    • title: 源文章标题。
    • patient: 患者笔记。
    • age: 年龄信息,格式为(值, 单位)
    • gender: 性别,M或F。
    • relevant_articles: 相关文章的PMID及其相关性分数。
    • similar_patients: 相似患者的patient_uid及其相似性分数。

ReCDS基准

  • 任务: 患者到文章检索(PAR)和患者到患者检索(PPR)。
  • 数据格式: 遵循BEIR基准,包括查询、语料库和qrels。
    • 查询: 存储为jsonl文件,包含_idtext字段。
    • 语料库: 对于PAR包含11.7M PubMed文章,对于PPR包含155.2k参考患者。
    • Qrels: TREC风格的检索注释文件,格式为tsv,包含查询标识符、语料库标识符和分数。

数据下载

评估与提交

  • 提供基于BEIR的评估代码,用于评估模型并生成检索结果。
  • 提交至leaderboard需通过电子邮件发送检索分数和系统描述至zhengyun21@mails.tsinghua.edu.cn。

引用信息

  • 引用格式:

    @article{Zhao2023ALD, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems.}, author={Zhengyun Zhao and Qiao Jin and Fangyuan Chen and Tuorui Peng and Sheng Yu}, journal={Scientific data}, year={2023}, volume={10 1}, pages={909}, url={https://api.semanticscholar.org/CorpusID:266360591} }

搜集汇总
数据集介绍
main_image_url
构建方式
PMC-Patients数据集通过从PubMed Central(PMC)中提取的167,000份患者摘要构建而成,这些摘要来源于病例报告。此外,数据集还包含了310万条患者与文章的相关性标注以及293,000条患者与患者之间的相似性标注,这些标注基于PubMed的引用图谱。数据集的核心文件以JSON格式存储,包含了患者的基本信息、摘要、年龄、性别以及与相关文章和相似患者的关联信息。
使用方法
用户可以通过Figshare或Huggingface平台免费下载PMC-Patients数据集,下载后需解压缩并保持`datasets`文件夹在根目录中以使用提供的评估代码。数据集支持两种任务:患者到文章检索(PAR)和患者到患者检索(PPR)。用户可以使用提供的评估代码进行模型评估,并将结果提交至官方排行榜。提交时需将检索结果以特定格式存储,并通过电子邮件发送至指定地址。
背景与挑战
背景概述
PMC-Patients数据集是首个从PubMed Central(PMC)中提取的包含16.7万患者摘要的独特数据集,涵盖了310万患者与文章的相关性标注以及29.3万患者间的相似性标注。该数据集由Zhengyun Zhao等人于2023年创建,旨在为基于检索的临床决策支持系统(ReCDS)提供基准测试任务,包括患者到文章检索(PAR)和患者到患者检索(PPR)。PMC-Patients不仅丰富了临床数据资源,还为研究者提供了一个评估和开发相关算法的标准平台,对推动医疗信息检索技术的发展具有重要意义。
当前挑战
PMC-Patients数据集在构建过程中面临多项挑战。首先,从海量的PubMed Central文献中提取和标注患者信息,确保数据的准确性和完整性是一项艰巨的任务。其次,定义患者与文章、患者与患者之间的相关性和相似性评分标准,需要结合医学领域的专业知识,确保标注的科学性和实用性。此外,数据集的规模庞大,涉及1170万篇PubMed文章和15.5万参考患者,如何高效地存储、处理和分析这些数据也是一大挑战。最后,为确保数据集的广泛应用,需提供易于使用的数据格式和评估工具,这对数据集的可用性和推广提出了更高要求。
常用场景
经典使用场景
PMC-Patients数据集的经典使用场景主要集中在基于检索的临床决策支持系统(ReCDS)中,具体包括患者到文章检索(PAR)和患者到患者检索(PPR)。通过这些任务,研究人员可以利用数据集中的患者摘要、人口统计信息以及相关文章和相似患者的标注,构建和评估高效的检索模型,以支持临床决策过程中的信息检索需求。
解决学术问题
PMC-Patients数据集解决了临床决策支持系统中信息检索的关键问题,特别是在处理大规模患者数据时,如何高效地检索相关医学文献和相似患者案例。这不仅提升了临床决策的准确性和效率,还为研究者提供了一个标准化的基准,用于评估和比较不同检索算法的性能,推动了相关领域的技术进步。
实际应用
在实际应用中,PMC-Patients数据集被广泛用于开发和优化临床决策支持工具。例如,医生可以通过检索系统快速找到与当前患者情况相似的病例和相关医学文献,从而辅助诊断和治疗方案的制定。此外,该数据集还支持医疗研究机构进行大规模的临床数据分析,以发现潜在的疾病模式和治疗效果。
数据集最近研究
最新研究方向
在医学信息学领域,PMC-Patients数据集的最新研究方向主要集中在基于检索的临床决策支持系统(ReCDS)的优化与应用。该数据集通过提供167k的患者摘要、3.1M的患者-文章关联标注以及293k的患者-患者相似性标注,为研究者提供了丰富的资源来探索患者-文章检索(PAR)和患者-患者检索(PPR)任务。这些任务不仅有助于提升临床决策的精准度,还能通过自动化检索技术加速医疗信息的获取与分析,从而在医疗大数据时代背景下具有重要的应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作