zhengyun21/PMC-Patients-MetaData
收藏Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhengyun21/PMC-Patients-MetaData
下载链接
链接失效反馈官方服务:
资源简介:
PMC-Patients数据集是一个医学领域的数据集,包含从PubMed Central文章中提取的患者信息。数据集包括多个JSON文件,如PMIDs.json、train_PMIDs.json、dev_PMIDs.json、test_PMIDs.json等,这些文件记录了文章ID、患者ID、文章与患者之间的相关性、患者之间的相似性、MeSH术语、人类评估结果等信息。数据集的语言为英语,规模在10万到100万之间,许可证为cc-by-nc-sa-4.0。
提供机构:
zhengyun21
原始信息汇总
数据集概述
数据集文件
PMIDs.json
- 描述: 从PMC-Patients提取的文章的PMID列表。
- 数据类型: 字符串列表。
- 长度: 140,897。
train_PMIDs.json & dev_PMIDs.json & test_PMIDs.json
- 描述: 训练/开发/测试集中的文章PMID列表。
- 数据类型: 字符串列表。
train_patient_uids.json & dev_patient_uids.json & test_patient_uids.json
- 描述: 训练/开发/测试集中的患者笔记的patient_uids列表。
- 数据类型: 字符串列表。
patient2article_relevance.json
- 描述: 完整的患者-文章数据集。
- 数据类型: 字典,键为
patient_uid,每个条目是相关文章的PMID列表。 - 相关性评分: 通过检查
PMID是否在PMIDs.json中获得3点相关性评分。
patient2patient_similarity.json
- 描述: 完整的患者-患者相似度数据集。
- 数据类型: 字典,键为
patient_uid,每个条目是相似患者的patient_uid列表。 - 相似度评分: 通过检查相似患者是否共享与查询患者相同的
PMID(patient_uid中的字符串前缀)获得3点相似度评分。
PMID2Mesh.json
- 描述: 文章PMID到MeSH术语的字典。
MeSH_Humans_patient_uids.json
- 描述: 从带有"Humans" MeSH术语的文章中提取的PMC-Patients-Humans患者的
patient_uid列表。 - 数据类型: 字符串列表。
PMC-Patients_citations.json
- 描述: 用于收集数据集的所有文章的引用。
- 数据类型: 字典,键为
patient_uid,每个条目是来源文章的引用。
human_PMIDs.json
- 描述: 用于人类评估的500篇随机抽样文章的PMID列表。
- 数据类型: 字符串列表。
PMC-Patients_human_eval.json
- 描述:
human_PMIDs.json中500篇文章的专家注释结果,包括手动注释的患者笔记、人口统计数据和前5篇检索到的文章/患者的关联。 - 数据类型: 字典列表,键与
PMC-Patients.json几乎相同,除了human_patient_id和human_patient_uid。 - 关联注释: 字符串,指示患者-文章/患者-患者对在哪些维度上相关/相似。"0", "1", "2", "3"分别代表"Irrelevant", "Diagnosis", "Test", "Treatment"(ReCDS-PAR)和"Dissimilar", "Features", "Outcomes", "Exposure"(ReCDS-PPR)。
PAR_PMIDs.json
- 描述: 用作PAR语料库的11.7M篇文章的PMID列表。
- 数据类型: 字符串列表。



