five

SaProtHub/Dataset-Fluorescence-TAPE|蛋白质分析数据集|机器学习数据集

收藏
hugging_face2024-07-10 更新2024-06-12 收录
蛋白质分析
机器学习
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Fluorescence-TAPE
下载链接
链接失效反馈
资源简介:
荧光预测是一个回归任务,每个输入蛋白质x被映射到一个标签y,对应于x的对数荧光强度。数据集来自《Evaluating Protein Transfer Learning with TAPE》论文,遵循原始数据分割,包括训练集20963个样本,验证集5235个样本,测试集25517个样本。所有数据以LMDB格式组织,数据库结构包括样本数量和每个样本的序列及其适应性标签。

荧光预测是一个回归任务,每个输入蛋白质x被映射到一个标签y,对应于x的对数荧光强度。数据集来自《Evaluating Protein Transfer Learning with TAPE》论文,遵循原始数据分割,包括训练集20963个样本,验证集5235个样本,测试集25517个样本。所有数据以LMDB格式组织,数据库结构包括样本数量和每个样本的序列及其适应性标签。
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集描述

  • 任务类型: 回归任务
  • 目标: 将每个输入蛋白质 x 映射到一个标签 yR,对应于 x 的log-荧光强度。

数据分割

  • 训练集: 20963样本
  • 验证集: 5235样本
  • 测试集: 25517样本

数据格式

  • 存储格式: LMDB
  • 数据结构:
    • 样本数量: 数据集中的样本总数
    • 样本详情:
      • seq: 结构感知序列
      • fitness: 序列的适应度标签
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建SaProtHub/Dataset-Fluorescence-TAPE数据集时,研究者遵循了TAPE(Transfer Agnostic Protein Evaluation)框架的原始数据划分方式。该数据集源自于对蛋白质转移学习的评估研究,具体数据包括20963个训练样本、5235个验证样本和25517个测试样本。这些样本的标签为蛋白质序列的日志荧光强度,通过回归任务将每个输入蛋白质映射到一个实数标签,以反映其荧光特性。
特点
SaProtHub/Dataset-Fluorescence-TAPE数据集的主要特点在于其专注于蛋白质荧光强度的预测,这是一个典型的回归任务。数据集的标签直接关联到蛋白质的日志荧光强度,这为研究蛋白质结构与功能之间的关系提供了宝贵的数据资源。此外,数据集的划分严格遵循TAPE框架,确保了数据的一致性和可比性,从而为蛋白质科学领域的研究提供了坚实的基础。
使用方法
使用SaProtHub/Dataset-Fluorescence-TAPE数据集时,研究者可以通过加载'dataset.csv'文件来访问数据。该数据集适用于各种回归模型,特别是那些旨在预测蛋白质荧光强度的模型。用户可以根据数据集提供的训练、验证和测试划分,进行模型的训练和评估。通过分析模型在不同数据集上的表现,可以深入理解蛋白质荧光特性的预测机制,并为相关领域的研究提供有力的支持。
背景与挑战
背景概述
在蛋白质科学领域,荧光预测是一项重要的回归任务,旨在将输入的蛋白质序列映射到其对数荧光强度。SaProtHub/Dataset-Fluorescence-TAPE数据集由主要研究人员或机构创建,旨在通过大规模数据集支持蛋白质荧光预测的研究。该数据集源自《Evaluating Protein Transfer Learning with TAPE》论文,于2019年发布,包含20963个训练样本、5235个验证样本和25517个测试样本。其核心研究问题在于通过机器学习模型准确预测蛋白质的荧光强度,这对于理解蛋白质功能和开发新型生物技术具有重要意义。
当前挑战
构建SaProtHub/Dataset-Fluorescence-TAPE数据集面临的主要挑战包括:首先,确保数据集的多样性和代表性,以涵盖不同类型蛋白质的荧光特性;其次,处理和标注大量蛋白质序列数据,确保标签的准确性和一致性。此外,荧光预测任务本身具有高度复杂性,涉及蛋白质结构与功能的深入理解,这对模型的训练和验证提出了高要求。最后,数据集的规模和复杂性要求高效的计算资源和算法优化,以实现准确的荧光强度预测。
常用场景
经典使用场景
在蛋白质科学领域,SaProtHub/Dataset-Fluorescence-TAPE数据集被广泛用于荧光预测任务。该任务通过将输入蛋白质序列映射到其对数荧光强度标签,实现对蛋白质荧光特性的量化预测。这一经典应用场景不仅有助于深入理解蛋白质的功能特性,还为蛋白质工程和药物设计提供了重要的数据支持。
解决学术问题
该数据集解决了蛋白质荧光预测中的关键学术问题,即如何准确量化蛋白质的荧光强度。通过提供大规模的训练和测试数据,SaProtHub/Dataset-Fluorescence-TAPE数据集显著提升了荧光预测模型的性能和可靠性,为相关领域的研究提供了坚实的基础。
衍生相关工作
基于SaProtHub/Dataset-Fluorescence-TAPE数据集,许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的深度学习模型,以提高荧光预测的准确性;还有研究团队将其应用于蛋白质结构预测和功能注释,进一步拓展了数据集的应用范围。这些衍生工作不仅丰富了蛋白质科学的研究内容,也推动了相关技术的创新和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录