DingoMz/pubmed-hpo-pa-corpus
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DingoMz/pubmed-hpo-pa-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由表型索引、摘要语料库和评估集组成。表型索引数据来源于人类表型本体论(HPO),使用PyHPO库处理,并包含HPO的id属性。摘要语料库通过Bio.Entrez包从PubMed获取,每个摘要都有一个对应的PMID,用于非营利性研究目的。评估集包含标注了Lin相似度的HPO表型对。数据集的使用和获取代码在GitHub上公开。
该数据集由表型索引、摘要语料库和评估集组成。表型索引数据来源于人类表型本体论(HPO),使用PyHPO库处理,并包含HPO的id属性。摘要语料库通过Bio.Entrez包从PubMed获取,每个摘要都有一个对应的PMID,用于非营利性研究目的。评估集包含标注了Lin相似度的HPO表型对。数据集的使用和获取代码在GitHub上公开。
提供机构:
DingoMz
原始信息汇总
数据集概述
数据集组成
-
Índices de fenotipos
- 文件类型:index.csv, phen.csv, phenotypes/*
- 来源:HPO (Human Phenotype Ontology)
- 获取方式:通过PyHPO库从HPO版本v2022-12-15中提取
- 特征:包含HPO的id属性,所有fenotipos属于Phenotypic Abnormality子ontology
-
Corpus de abstracts
- 文件类型:abstracts/abstracts.csv
- 来源:PubMed
- 获取方式:通过Bio.Entrez包进行web-scrapping
- 特征:包含paperid列,对应PubMed的PMID,用于非盈利和研究目的
-
Conjuntos de evaluación
- 文件类型:evaluation/*
- 特征:包含HPO的fenotipos对,标注了Lin相似度(类型为gene)
数据获取代码
- 代码仓库:https://github.com/DgoMndez/DL-patogen-colab-DIIC



