five

zhengyun21/PMC-Patients-MetaData

收藏
Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhengyun21/PMC-Patients-MetaData
下载链接
链接失效反馈
官方服务:
资源简介:
PMC-Patients数据集是一个医学领域的数据集,包含从PubMed Central文章中提取的患者信息。数据集包括多个JSON文件,如PMIDs.json、train_PMIDs.json、dev_PMIDs.json、test_PMIDs.json等,这些文件记录了文章ID、患者ID、文章与患者之间的相关性、患者之间的相似性、MeSH术语、人类评估结果等信息。数据集的语言为英语,规模在10万到100万之间,许可证为cc-by-nc-sa-4.0。
提供机构:
zhengyun21
原始信息汇总

数据集概述

数据集文件

PMIDs.json

  • 描述: 从PMC-Patients提取的文章的PMID列表。
  • 数据类型: 字符串列表。
  • 长度: 140,897。

train_PMIDs.json & dev_PMIDs.json & test_PMIDs.json

  • 描述: 训练/开发/测试集中的文章PMID列表。
  • 数据类型: 字符串列表。

train_patient_uids.json & dev_patient_uids.json & test_patient_uids.json

  • 描述: 训练/开发/测试集中的患者笔记的patient_uids列表。
  • 数据类型: 字符串列表。

patient2article_relevance.json

  • 描述: 完整的患者-文章数据集。
  • 数据类型: 字典,键为patient_uid,每个条目是相关文章的PMID列表。
  • 相关性评分: 通过检查PMID是否在PMIDs.json中获得3点相关性评分。

patient2patient_similarity.json

  • 描述: 完整的患者-患者相似度数据集。
  • 数据类型: 字典,键为patient_uid,每个条目是相似患者的patient_uid列表。
  • 相似度评分: 通过检查相似患者是否共享与查询患者相同的PMIDpatient_uid中的字符串前缀)获得3点相似度评分。

PMID2Mesh.json

  • 描述: 文章PMID到MeSH术语的字典。

MeSH_Humans_patient_uids.json

  • 描述: 从带有"Humans" MeSH术语的文章中提取的PMC-Patients-Humans患者的patient_uid列表。
  • 数据类型: 字符串列表。

PMC-Patients_citations.json

  • 描述: 用于收集数据集的所有文章的引用。
  • 数据类型: 字典,键为patient_uid,每个条目是来源文章的引用。

human_PMIDs.json

  • 描述: 用于人类评估的500篇随机抽样文章的PMID列表。
  • 数据类型: 字符串列表。

PMC-Patients_human_eval.json

  • 描述: human_PMIDs.json中500篇文章的专家注释结果,包括手动注释的患者笔记、人口统计数据和前5篇检索到的文章/患者的关联。
  • 数据类型: 字典列表,键与PMC-Patients.json几乎相同,除了human_patient_idhuman_patient_uid
  • 关联注释: 字符串,指示患者-文章/患者-患者对在哪些维度上相关/相似。"0", "1", "2", "3"分别代表"Irrelevant", "Diagnosis", "Test", "Treatment"(ReCDS-PAR)和"Dissimilar", "Features", "Outcomes", "Exposure"(ReCDS-PPR)。

PAR_PMIDs.json

  • 描述: 用作PAR语料库的11.7M篇文章的PMID列表。
  • 数据类型: 字符串列表。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作