five

seq-to-pheno/filtered_orthologs

收藏
Hugging Face2024-10-07 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/seq-to-pheno/filtered_orthologs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了来自Zoonomia项目的不同物种的直系同源蛋白信息,并映射到人类蛋白。数据集经过过滤,去除了长度超过1000个氨基酸的蛋白和在任一物种中具有超过{MAX_NUMBER_ORTHOLOGS}个直系同源物的蛋白。数据集包含一个CSV文件,列包括人类转录本ID、人类蛋白名称、非人类(查询)生物转录本ID和查询物种名称。数据集仅包含训练集,未提供验证或测试集。数据集的创建目的是为了便于比较基因组学研究,并提供对Zoonomia项目中各种物种的直系同源映射的便捷访问。数据集的来源是Zoonomia项目的蛋白比对文件。数据集可能存在的偏差包括物种代表性和比对质量的偏差。

This dataset provides information about orthologous proteins across various species from the Zoonomia Project, mapped to human proteins. The dataset is sourced from the Zoonomia Project and is primarily used for comparative genomics and evolutionary studies. The dataset consists of a single CSV file with columns for human transcript ID, human protein name, non-human (query) organism transcript ID, and query species name. The dataset contains only a train split with no other divisions. The creation of the dataset aims to facilitate comparative genomics studies and provide easy access to ortholog mappings. Users should be aware of potential biases and limitations, such as species representation and alignment quality.
提供机构:
seq-to-pheno
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作