PMC-Patients|医学信息检索数据集|患者数据分析数据集

huggingface2024-12-10 更新2024-12-12 收录

医学信息检索

患者数据分析

下载链接：

https://huggingface.co/datasets/THUMedInfo/PMC-Patients

下载链接

链接失效反馈

资源简介：

PMC-Patients是一个开创性的数据集，包含从PubMed Central（PMC）病例报告中提取的167k患者摘要，以及3.1M的患者-文章相关性和293k的患者-患者相似性注释。该数据集支持患者-文章检索（PAR）和患者-患者检索（PPR）任务，数据集语言为英语，文件格式为CSV，包含患者ID、唯一ID、源文章的PMID、文件路径、标题、患者摘要、年龄、性别、相关文章和相似患者等信息。

创建时间：

2024-11-28

原始信息汇总

PMC-Patients 数据集概述

数据集描述

数据集名称: PMC-Patients
数据集类型: 患者摘要数据集
数据来源: PubMed Central (PMC) 中的病例报告
数据规模: 包含167,000个患者摘要，310万条患者-文章关联标注，293,000条患者-患者相似性标注
语言: 英语 (en)
许可证: CC BY-NC-SA 4.0

数据集结构

PMC-Patients.csv

该文件包含PMC-Patients数据集中所有患者摘要的信息，具体字段如下：

patient_id: 字符串类型，患者的连续ID，从0开始。
patient_uid: 字符串类型，每个患者的唯一ID，格式为PMID-x，其中PMID是患者来源文章的PubMed标识符，x表示患者在来源文章中的索引。
PMID: 字符串类型，来源文章的PMID。
file_path: 字符串类型，来源文章的XML文件路径。
title: 字符串类型，来源文章的标题。
patient: 字符串类型，患者摘要。
age: 列表类型，每个条目为(value, unit)格式，其中value为浮点数，unit为年龄单位（year, month, week, day, hour）。例如，[[1.0, year], [2.0, month]]表示患者为1岁2个月大的婴儿。
gender: 字符串类型，M表示男性，F表示女性。
relevant_articles: 字典类型，键为相关文章的PMID，值为其相关性得分（2或1，定义见“方法”部分）。
similar_patients: 字典类型，键为相似患者的patient_uid，值为其相似性得分（2或1，定义见“方法”部分）。

支持的任务和排行榜

任务: 基于PMC-Patients数据集，定义了两个任务来评估基于检索的临床决策支持系统（ReCDS）：患者-文章检索（PAR）和患者-患者检索（PPR）。
排行榜: 请参考排行榜。

引用信息

如果PMC-Patients数据集对你的研究有帮助，请引用以下文献：

@article{zhao2023large, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems}, author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng}, journal={Scientific Data}, volume={10}, number={1}, pages={909}, year={2023}, publisher={Nature Publishing Group UK London} }

AI搜集汇总

数据集介绍

构建方式

PMC-Patients数据集的构建基于PubMed Central（PMC）中的病例报告，从中提取了167,000份患者摘要。该数据集不仅包含患者的基本信息，如年龄、性别等，还通过PubMed引文图谱定义了310万条患者与文章的相关性标注以及293,000条患者之间的相似性标注。数据集的构建过程依赖于对PMC文章的系统性筛选与信息抽取，确保了数据的全面性与准确性。

特点

PMC-Patients数据集的独特之处在于其不仅提供了丰富的患者摘要信息，还通过引文图谱为每个患者生成了相关文章和相似患者的标注。这种结构化的数据形式使得该数据集在临床决策支持系统（CDSS）的研究中具有极高的应用价值。此外，数据集的规模较大，涵盖了超过25万患者，为大规模模型训练提供了坚实的基础。

使用方法

PMC-Patients数据集可用于支持基于检索的临床决策支持系统（ReCDS）的研究，特别是患者与文章检索（PAR）和患者与患者检索（PPR）任务。用户可以通过访问数据集的GitHub仓库获取详细的使用指南，并根据提供的CSV文件进行数据加载与处理。此外，数据集的结构化设计使得其在自然语言处理和机器学习模型的训练中具有广泛的应用前景。

背景与挑战

背景概述

PMC-Patients数据集是由清华大学等机构的研究人员于2023年发布的，旨在为基于检索的临床决策支持系统（ReCDS）提供大规模的患者摘要数据。该数据集从PubMed Central（PMC）的病例报告中提取了16.7万条患者摘要，并包含了310万条患者与文章的相关性标注以及29.3万条患者间的相似性标注。PMC-Patients的发布填补了该领域的空白，为研究者提供了一个全新的资源，用于开发和评估临床决策支持系统，特别是在患者与文章检索（PAR）和患者间检索（PPR）任务中。

当前挑战

PMC-Patients数据集的构建面临多重挑战。首先，从海量的医学文献中提取患者摘要并确保其准确性和完整性是一项复杂的任务。其次，构建患者与文章的相关性标注和患者间的相似性标注需要大量的专业知识和人工校验，以确保标注的可靠性。此外，数据集的规模和多样性也为模型训练和评估带来了计算资源和算法设计上的挑战。最后，如何在实际临床环境中应用这些数据，并确保其对临床决策的支持效果，也是未来研究中需要解决的重要问题。

常用场景

经典使用场景

PMC-Patients数据集以其独特的患者摘要信息，广泛应用于基于检索的临床决策支持系统（ReCDS）中。该数据集通过提供详细的病例报告摘要，支持患者与文章检索（PAR）和患者与患者检索（PPR）两大任务。这些任务在临床实践中尤为重要，能够帮助医生快速定位相关病例和相似患者，从而提升诊断和治疗的效率与准确性。

解决学术问题

PMC-Patients数据集通过提供大规模的患者摘要和相关性标注，解决了临床决策支持系统中数据稀缺和标注不足的问题。其丰富的患者信息和多维度的标注，为研究者提供了宝贵的资源，推动了基于检索的临床决策支持系统的算法研究和模型优化。这一数据集的发布，极大地促进了相关领域的学术研究进展。

衍生相关工作

基于PMC-Patients数据集，研究者们开展了多项相关工作，包括但不限于改进患者检索算法、优化临床决策支持模型以及开发新的医疗信息系统。这些工作不仅提升了数据集的应用价值，还推动了整个医疗信息学领域的发展。例如，一些研究通过引入深度学习技术，进一步提高了患者检索的准确性和效率。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

Movies Dataset

这个数据集包含电影的详细信息，包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录