five

PMC-Patients|临床决策支持数据集|医疗信息检索数据集

收藏
arXiv2023-04-19 更新2024-06-21 收录
临床决策支持
医疗信息检索
下载链接:
https://github.com/pmc-patients/pmc-patients
下载链接
链接失效反馈
资源简介:
PMC-Patients是由清华大学开发的大型患者摘要和关系数据集,包含从PubMed Central提取的167,000份患者摘要,旨在为基于检索的临床决策支持系统提供基准测试。数据集通过简单的启发式方法从案例报告中提取患者摘要,并利用PubMed引用图定义患者文章相关性和患者间相似性。PMC-Patients不仅规模庞大,而且覆盖了广泛的医疗条件,适用于评估患者到文章检索和患者到患者检索任务,展示了在临床决策支持中的实际应用价值。
提供机构:
清华大学
创建时间:
2022-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
PMC-Patients数据集的构建基于PubMed Central(PMC)中的病例报告,通过简单的启发式方法提取患者摘要,并利用PubMed的引用图来定义患者与文章之间的相关性以及患者与患者之间的相似性。具体步骤包括:首先,通过正则表达式识别PMC文章中的患者摘要部分;其次,提取患者摘要候选者,并过滤掉不符合条件的候选者(如过短、非英文或缺乏人口统计信息的摘要);最后,利用PubMed引用图自动标注患者与文章的相关性以及患者之间的相似性。
特点
PMC-Patients数据集包含167,000个患者摘要,这些摘要来自141,000篇PMC文章,涵盖了广泛的医学条件和人口统计信息。数据集还包含310万条患者与文章的相关性标注和29.3万条患者与患者之间的相似性标注,是目前最大规模的临床决策支持系统(ReCDS)基准数据集之一。患者摘要的质量高,且数据集在患者多样性和医学条件覆盖方面表现出色。
使用方法
PMC-Patients数据集主要用于评估基于检索的临床决策支持系统(ReCDS),具体包括两个任务:患者到文章检索(ReCDS-PAR)和患者到患者检索(ReCDS-PPR)。在ReCDS-PAR任务中,系统需要从PubMed中检索与给定患者相关的文章;在ReCDS-PPR任务中,系统需要从PMC-Patients数据集中检索与给定患者相似的其他患者。数据集还提供了多个基线模型的评估结果,展示了其在临床决策支持中的实际应用价值。
背景与挑战
背景概述
PMC-Patients数据集由清华大学的研究团队于2023年提出,旨在为基于检索的临床决策支持系统(ReCDS)提供大规模的患者摘要和关系标注。该数据集从PubMed Central(PMC)的病例报告中提取了167,000个患者摘要,并基于PubMed的引用图标注了310万条患者-文章相关性和29.3万条患者-患者相似性关系。PMC-Patients的创建填补了临床决策支持领域缺乏大规模、多样化患者数据集的空白,为ReCDS系统的开发和评估提供了重要资源。该数据集的核心研究问题是通过检索相关文献和相似患者,辅助临床医生在诊断、测试和治疗决策中做出更准确的判断。PMC-Patients的发布对推动临床信息检索和自然语言处理技术的发展具有重要意义。
当前挑战
PMC-Patients数据集在构建和应用中面临多重挑战。首先,患者-文章检索(ReCDS-PAR)和患者-患者检索(ReCDS-PPR)任务的复杂性要求模型能够同时处理语义匹配和精确词汇匹配,而现有基线模型在P@10和R@1k等指标上表现仍不理想。其次,数据集的构建依赖于PubMed引用图,尽管自动标注的精度较高,但仍存在噪声和偏差,尤其是在患者相似性定义上,如何准确捕捉多维度的临床特征仍是一个难题。此外,患者摘要的长度远超BERT等模型的输入限制,导致信息丢失,进一步增加了检索任务的难度。最后,尽管PMC-Patients覆盖了广泛的医学条件,但其数据来源主要局限于病例报告,可能无法完全代表真实世界中的患者多样性,限制了模型的泛化能力。
常用场景
经典使用场景
PMC-Patients数据集主要用于支持基于检索的临床决策支持系统(ReCDS)的基准测试。通过提供大规模的病例摘要和相关文献,该数据集使得研究人员能够开发和评估从患者到文献(Patient-to-Article Retrieval, PAR)以及从患者到患者(Patient-to-Patient Retrieval, PPR)的检索任务。这些任务旨在帮助临床医生快速找到与特定患者相关的科学文献或相似病例,从而辅助诊断和治疗决策。
解决学术问题
PMC-Patients数据集解决了临床决策支持系统中缺乏大规模、多样化患者摘要和公开可用的患者级别注释数据的问题。通过提供167,000个患者摘要、310万条患者-文献相关注释和293,000条患者-患者相似性注释,该数据集为ReCDS系统的开发提供了丰富的资源。这不仅推动了信息检索和自然语言处理技术在临床领域的应用,还为研究人员提供了一个标准化的基准,用于评估和改进检索算法的性能。
衍生相关工作
PMC-Patients数据集推动了多个相关领域的研究工作。基于该数据集,研究人员开发了多种检索模型,包括稀疏检索器(如BM25)、密集检索器(如基于BERT的模型)以及最近邻检索器。此外,该数据集还激发了针对临床文本的预训练语言模型(如PubMedBERT、Clinical BERT等)的研究,这些模型在生物医学领域的自然语言处理任务中表现出色。PMC-Patients还为临床决策支持系统的实际应用提供了丰富的案例研究,展示了其在罕见病诊断、多病共治和个性化治疗中的潜力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录