five

DingoMz/pubmed-hpo-pa-corpus

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DingoMz/pubmed-hpo-pa-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由表型索引、摘要语料库和评估集组成。表型索引数据来源于人类表型本体论(HPO),使用PyHPO库处理,并包含HPO的id属性。摘要语料库通过Bio.Entrez包从PubMed获取,每个摘要都有一个对应的PMID,用于非营利性研究目的。评估集包含标注了Lin相似度的HPO表型对。数据集的使用和获取代码在GitHub上公开。

该数据集由表型索引、摘要语料库和评估集组成。表型索引数据来源于人类表型本体论(HPO),使用PyHPO库处理,并包含HPO的id属性。摘要语料库通过Bio.Entrez包从PubMed获取,每个摘要都有一个对应的PMID,用于非营利性研究目的。评估集包含标注了Lin相似度的HPO表型对。数据集的使用和获取代码在GitHub上公开。
提供机构:
DingoMz
原始信息汇总

数据集概述

数据集组成

  • Índices de fenotipos

    • 文件类型:index.csv, phen.csv, phenotypes/*
    • 来源:HPO (Human Phenotype Ontology)
    • 获取方式:通过PyHPO库从HPO版本v2022-12-15中提取
    • 特征:包含HPO的id属性,所有fenotipos属于Phenotypic Abnormality子ontology
  • Corpus de abstracts

    • 文件类型:abstracts/abstracts.csv
    • 来源:PubMed
    • 获取方式:通过Bio.Entrez包进行web-scrapping
    • 特征:包含paperid列,对应PubMed的PMID,用于非盈利和研究目的
  • Conjuntos de evaluación

    • 文件类型:evaluation/*
    • 特征:包含HPO的fenotipos对,标注了Lin相似度(类型为gene)

数据获取代码

  • 代码仓库:https://github.com/DgoMndez/DL-patogen-colab-DIIC
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作