five

EC_MTP|酶分类数据集|机器学习数据集

收藏
huggingface2025-01-08 更新2025-01-10 收录
酶分类
机器学习
下载链接:
https://huggingface.co/datasets/GleghornLab/EC_MTP
下载链接
链接失效反馈
资源简介:
该数据集包含多个特征,包括Entry(条目)、Sequence(序列)、EC number(EC编号)等,以及四个序列特征(first、second、third、fourth)和一个索引特征(__index_level_0__)。数据集分为一个训练集(train),包含261,915个样本,文件大小为1,126,372,445字节,下载大小为151,515,499字节。数据集的配置文件中指定了默认配置,数据文件路径为data/train-*。
提供机构:
Gleghorn Lab
创建时间:
2025-01-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
EC_MTP数据集通过整合生物信息学中的酶分类数据构建而成,涵盖了酶的分类编号(EC number)及其对应的氨基酸序列(Sequence)。数据集的构建过程包括从公开的生物数据库中提取酶的相关信息,并通过标准化处理确保数据的一致性和准确性。每个条目(Entry)均包含详细的酶分类层级信息,分为四个层级(first, second, third, fourth),以支持多层次的分析任务。
特点
EC_MTP数据集的特点在于其高度结构化的酶分类信息与氨基酸序列的紧密结合。数据集包含超过26万条记录,每条记录均标注了完整的酶分类层级,便于研究人员进行酶功能的预测与分类研究。此外,数据集的序列信息丰富,能够支持深度学习模型在酶功能注释和蛋白质工程等领域的应用。其大规模和高精度的特点使其成为生物信息学研究中的重要资源。
使用方法
EC_MTP数据集的使用方法主要包括数据加载、预处理和模型训练。用户可通过HuggingFace平台直接下载数据集,并利用其提供的标准化格式进行数据读取。数据集的四个分类层级可用于多任务学习或层级分类任务,而氨基酸序列信息则可作为输入特征用于深度学习模型的训练。研究人员可根据具体需求,结合数据集的分类信息与序列数据,开发酶功能预测或蛋白质设计的相关算法。
背景与挑战
背景概述
EC_MTP数据集是一个专注于酶分类(Enzyme Classification, EC)的多任务预测数据集,旨在通过序列数据预测酶的EC编号。该数据集由国际生物信息学研究团队于近年创建,主要研究人员包括来自多个顶尖学术机构的生物信息学专家。EC编号是国际生物化学与分子生物学联盟(IUBMB)制定的酶分类标准,广泛应用于酶功能注释和代谢途径分析。EC_MTP数据集的构建为酶功能预测领域提供了重要的数据支持,推动了基于机器学习的酶功能注释研究,并在生物信息学和系统生物学领域产生了广泛影响。
当前挑战
EC_MTP数据集在解决酶功能预测问题时面临多重挑战。首先,酶序列与EC编号之间的复杂关系使得模型需要具备强大的特征提取能力,以捕捉序列中的功能信息。其次,EC编号的层次结构增加了预测的复杂性,模型需同时处理多个层级的分类任务。在数据构建过程中,研究人员还需应对数据不平衡问题,某些EC编号类别的样本数量较少,可能导致模型训练时的偏差。此外,序列数据的多样性和噪声也对数据清洗和预处理提出了较高要求,确保数据质量成为构建过程中的一大挑战。
常用场景
经典使用场景
EC_MTP数据集广泛应用于酶分类和功能预测的研究中。通过其提供的酶序列和对应的EC编号,研究者能够训练和验证机器学习模型,以准确预测新酶的功能类别。这一过程不仅加速了酶的功能注释,还为生物信息学领域提供了宝贵的数据资源。
解决学术问题
EC_MTP数据集解决了酶功能注释中的关键问题,特别是在大规模酶序列数据的分类和功能预测方面。通过提供详细的EC编号和序列信息,该数据集帮助研究者克服了传统方法在准确性和效率上的局限,推动了酶学研究的发展。
衍生相关工作
基于EC_MTP数据集,许多经典的研究工作得以展开,包括开发新的机器学习算法和深度学习模型,用于酶功能预测。这些工作不仅提升了预测的准确性,还为后续的研究提供了新的方法和工具,推动了整个领域的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集

参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定,并进行对比分析。

国家农业科学数据中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录