PMC-Patients|医学研究数据集|数据分析数据集

github2023-12-20 更新2024-05-31 收录

医学研究

数据分析

下载链接：

https://github.com/pmc-patients/pmc-patients

下载链接

链接失效反馈

资源简介：

PMC-Patients是一个首创的数据集，包含从PubMed Central的病例报告中提取的16.7万份患者摘要，以及310万份患者-文章相关性和29.3万份患者-患者相似性注释，这些注释由PubMed引用图定义。

PMC-Patients is a pioneering dataset comprising 167,000 patient summaries extracted from case reports in PubMed Central, along with 3.1 million patient-article correlations and 293,000 patient-patient similarity annotations, as defined by the PubMed citation graph.

创建时间：

2023-04-05

原始信息汇总

数据集概述

名称: PMC-Patients

描述: PMC-Patients 是一个独特的数据集，包含从PubMed Central (PMC) 提取的167k患者摘要，以及3.1M患者-文章相关性和293k患者-患者相似性注释，这些注释基于PubMed引用图定义。

数据集内容

核心文件

PMC-Patients.json: 包含患者摘要、人口统计信息和关系注释的JSON文件。
- patient_id: 患者连续ID，从0开始。
- patient_uid: 患者唯一ID，格式为PMID-x。
- PMID: 源文章的PubMed标识符。
- file_path: 源文章的XML文件路径。
- title: 源文章标题。
- patient: 患者笔记。
- age: 年龄信息，格式为(值, 单位)。
- gender: 性别，M或F。
- relevant_articles: 相关文章的PMID及其相关性分数。
- similar_patients: 相似患者的patient_uid及其相似性分数。

ReCDS基准

任务: 患者到文章检索(PAR)和患者到患者检索(PPR)。
数据格式: 遵循BEIR基准，包括查询、语料库和qrels。
- 查询: 存储为jsonl文件，包含_id和text字段。
- 语料库: 对于PAR包含11.7M PubMed文章，对于PPR包含155.2k参考患者。
- Qrels: TREC风格的检索注释文件，格式为tsv，包含查询标识符、语料库标识符和分数。

数据下载

可通过Figshare或Huggingface免费下载，无需数据使用协议。

评估与提交

提供基于BEIR的评估代码，用于评估模型并生成检索结果。
提交至leaderboard需通过电子邮件发送检索分数和系统描述至zhengyun21@mails.tsinghua.edu.cn。

引用信息

引用格式:

@article{Zhao2023ALD, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems.}, author={Zhengyun Zhao and Qiao Jin and Fangyuan Chen and Tuorui Peng and Sheng Yu}, journal={Scientific data}, year={2023}, volume={10 1}, pages={909}, url={https://api.semanticscholar.org/CorpusID:266360591} }

AI搜集汇总

数据集介绍

构建方式

PMC-Patients数据集通过从PubMed Central（PMC）中提取的167,000份患者摘要构建而成，这些摘要来源于病例报告。此外，数据集还包含了310万条患者与文章的相关性标注以及293,000条患者与患者之间的相似性标注，这些标注基于PubMed的引用图谱。数据集的核心文件以JSON格式存储，包含了患者的基本信息、摘要、年龄、性别以及与相关文章和相似患者的关联信息。

使用方法

用户可以通过Figshare或Huggingface平台免费下载PMC-Patients数据集，下载后需解压缩并保持`datasets`文件夹在根目录中以使用提供的评估代码。数据集支持两种任务：患者到文章检索（PAR）和患者到患者检索（PPR）。用户可以使用提供的评估代码进行模型评估，并将结果提交至官方排行榜。提交时需将检索结果以特定格式存储，并通过电子邮件发送至指定地址。

背景与挑战

背景概述

PMC-Patients数据集是首个从PubMed Central（PMC）中提取的包含16.7万患者摘要的独特数据集，涵盖了310万患者与文章的相关性标注以及29.3万患者间的相似性标注。该数据集由Zhengyun Zhao等人于2023年创建，旨在为基于检索的临床决策支持系统（ReCDS）提供基准测试任务，包括患者到文章检索（PAR）和患者到患者检索（PPR）。PMC-Patients不仅丰富了临床数据资源，还为研究者提供了一个评估和开发相关算法的标准平台，对推动医疗信息检索技术的发展具有重要意义。

当前挑战

PMC-Patients数据集在构建过程中面临多项挑战。首先，从海量的PubMed Central文献中提取和标注患者信息，确保数据的准确性和完整性是一项艰巨的任务。其次，定义患者与文章、患者与患者之间的相关性和相似性评分标准，需要结合医学领域的专业知识，确保标注的科学性和实用性。此外，数据集的规模庞大，涉及1170万篇PubMed文章和15.5万参考患者，如何高效地存储、处理和分析这些数据也是一大挑战。最后，为确保数据集的广泛应用，需提供易于使用的数据格式和评估工具，这对数据集的可用性和推广提出了更高要求。

常用场景

经典使用场景

PMC-Patients数据集的经典使用场景主要集中在基于检索的临床决策支持系统（ReCDS）中，具体包括患者到文章检索（PAR）和患者到患者检索（PPR）。通过这些任务，研究人员可以利用数据集中的患者摘要、人口统计信息以及相关文章和相似患者的标注，构建和评估高效的检索模型，以支持临床决策过程中的信息检索需求。

解决学术问题

PMC-Patients数据集解决了临床决策支持系统中信息检索的关键问题，特别是在处理大规模患者数据时，如何高效地检索相关医学文献和相似患者案例。这不仅提升了临床决策的准确性和效率，还为研究者提供了一个标准化的基准，用于评估和比较不同检索算法的性能，推动了相关领域的技术进步。

实际应用

在实际应用中，PMC-Patients数据集被广泛用于开发和优化临床决策支持工具。例如，医生可以通过检索系统快速找到与当前患者情况相似的病例和相关医学文献，从而辅助诊断和治疗方案的制定。此外，该数据集还支持医疗研究机构进行大规模的临床数据分析，以发现潜在的疾病模式和治疗效果。

数据集最近研究

最新研究方向

在医学信息学领域，PMC-Patients数据集的最新研究方向主要集中在基于检索的临床决策支持系统（ReCDS）的优化与应用。该数据集通过提供167k的患者摘要、3.1M的患者-文章关联标注以及293k的患者-患者相似性标注，为研究者提供了丰富的资源来探索患者-文章检索（PAR）和患者-患者检索（PPR）任务。这些任务不仅有助于提升临床决策的精准度，还能通过自动化检索技术加速医疗信息的获取与分析，从而在医疗大数据时代背景下具有重要的应用价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录