five

MatthewCorney/gene-benchmark

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/MatthewCorney/gene-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
GeneBenchmark是一个用于评估基因级别嵌入的精选基准,涵盖四个生物学维度:疾病关联、通路/功能成员资格、蛋白质域/结构和组织表达。所有任务均基于NCBI Entrez基因ID(人类,智人),因此无需重新标记即可评估任何基因表示。数据集提供两种任务类型,源自13个公开可用的数据库:二元分类(疾病、功能/通路、结构/域、表达)和回归(结构、疾病、表达)。数据集结构包括数据源和版本、分类和回归文件的模式,以及经过筛选的类别列表。数据集创建过程包括源选择、预处理步骤和已知限制。

GeneBenchmark is a curated benchmark for evaluating gene-level embeddings across four biological dimensions: disease association, pathway/function membership, protein domain/structure, and tissue expression. All tasks are anchored to NCBI Entrez gene IDs (human, Homo sapiens) so any gene representation can be evaluated without re-labelling. The dataset provides two task types drawn from 13 publicly available databases: binary classification (disease, function/pathway, structure/domain, expression) and regression (structure, disease, expression). The dataset structure includes data sources and versions, schemas for classification and regression files, and curated class lists. The dataset creation process involves source selection, preprocessing steps, and known limitations.
提供机构:
MatthewCorney
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作