Rare Diseases Mentions in MIMIC-III (Rare disease mention annotations from a sample of MIMIC-III clinical notes)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Rare_Diseases_Mentions_in_etc
下载链接
链接失效反馈官方服务:
资源简介:
数据注释 1,073 个完整的罕见病提及注释(来自 312 个 MIMIC-III 出院摘要)位于 full_set_RD_ann_MIMIC_III_disch.csv 中。数据拆分: * 前 400 行用于验证,validation_set_RD_ann_MIMIC_III_disch.csv,* 最后 673 行用于测试,test_set_RD_ann_MIMIC_III_disch.csv。 198 条罕见病提及注释(来自 145 份 MIMIC-III 放射学报告)位于 test_set_RD_ann_MIMIC_III_rad.csv 中。需要注意的是,放射学报告仅用于测试而非验证。注意:只有当 ORDO 的黄金提及列标签的值为 1 时,一行才能被认为是患者的真实表型。 数据采样和注释程序 (i) 随机采样 500 份出院总结(和 1000 份放射学报告) ) 来自 MIMIC-III (ii) 500 份出院总结中的 312 份(以及 1000 份放射学报告中的 145 份)至少有一个与 ORDO 相关的正面 UMLS 提及,如 SemEHR 所确定的; UMLS/ORDO 总共有 1073 条(放射学报告中有 198 条)提及。 (iii) 3 名医学信息学研究人员(工作人员或博士生)注释了 1,073 次提及(以及 2 名医学信息学研究人员注释了放射学报告中的 198 次提及),关于它们是否是与 UMLS 和 ORDO 匹配的正确患者表型。注释中的矛盾随后由另一位具有生物医学背景的研究人员解决。数据字典 列名 描述 ROW_ID 每行唯一的标识符,请参阅 https://mimic.physionet.org/mimictables/noteevents/ SUBJECT_ID 患者唯一的标识符,请参阅 https://mimic.physionet.org/mimictables/noteevents/ HADM_ID患者住院的唯一标识符,请参阅 https://mimic.physionet.org/mimictables/noteevents/ 文档结构名称 提及的文档结构名称。文档结构名称由 SemEHR 标识(仅用于出院摘要)。完整文档中的文档结构偏移量 整个排放摘要中的文档结构文本(或模板)的开始和结束偏移量。文档结构由 SemEHR 使用正则表达式解析(仅用于出院摘要)。提及 SemEHR 识别的提及。文档结构中提及的偏移量 文档结构中提及的开始和结束偏移量(仅用于出院摘要)。完整文档中提及的偏移量 整个出院摘要中提及的开始和结束偏移量。它们可以通过完整文档中的文档结构偏移量和文档结构中的提及偏移量来计算。 UMLS with desc 由 SemEHR 识别的 UMLS,对应于提及。 ORDO 与 desc 匹配到 UMLS 的 ORDO,使用 ORDO 本体中的链接,见 https://www.ebi.ac.uk/ols/ontologies/ordo/terms?iri=http%3A%2F%2Fwww.orpha .net%2FORDO%2FOrphanet_3325 为例。黄金提及到 UMLS 标签 提及-UMLS 对是否指示患者的正确表型(即与 UMLS 概念正确匹配的正面提及),如果正确,则为 1,否则为 0。 gold UMLS-to-ORDO label 从UMLS概念到ORDO概念匹配是否正确,正确为1,不正确为0。金色提及 ORDO 标签 提及 ORDO 三元组是否指示患者的正确表型,1 表示正确,0 表示不正确。如果mention-to-UMLS 标签和UMLS-to-ORDO 标签都为1,则该列为1,否则为0。 注意: * 这些手动注释绝不是完美的。有一些假设的提及,注释者很难做出决定。此外,它们基于 SemEHR 的输出,它没有 100% 的召回率,因此注释可能不会涵盖抽样出院摘要中提到的所有罕见疾病。 * 在完整集或验证集的第 323 行中,提及 nph 不在文档结构中(由于提及提取错误),因此提及到 UMLS 的黄金标签为 -1。
提供机构:
OpenDataLab
创建时间:
2022-05-25



