five

BioTalk

收藏
github2024-06-13 更新2024-06-14 收录
下载链接:
https://github.com/Hoarfrost-Lab/BioTalk
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于多模态预测酶功能结合DNA序列和自然语言的基准数据集

A benchmark dataset for multimodal prediction of enzyme functions integrating DNA sequences and natural language.
创建时间:
2024-06-06
原始信息汇总

数据集概述

数据集名称

BioTalk

数据集目的

预测基因功能从DNA序列,伴随非结构化文本描述。

数据集结构

  • 训练和验证数据集

    • Benchmark-I
      • Train.parquet: 来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练数据。
      • Valid.parquet: 来自相同合并数据集的验证数据。
    • Benchmark-II
      • Train.parquet: 基于EC数计数的平衡训练数据。
      • Valid.parquet: 平衡验证数据。
    • Benchmark-III
      • Train.parquet: 仅来自Swiss-Prot的训练数据,移除了分布外条目。
      • Valid.parquet: 来自相同集合的验证数据。
    • Benchmark-IV
      • Train.parquet: 来自Benchmark-III的训练数据,平衡目标为每个EC数10个示例。
      • Valid.parquet: 类似平衡的验证数据。
  • 测试数据集

    • test1.csv: 从Benchmark-III派生的分布内测试数据。
    • test2.csv: 从Benchmark-IV派生的平衡测试数据。

数据集贡献

  1. 新数据集: 将DNA序列与其功能描述配对,填补了现有资源的重大缺口。
  2. 多模态应用: 促进开发预测DNA功能自然语言的多模态模型。
  3. 单模态和多模态基准: 提供各种模型的基准,包括在DNA序列上预训练的转换器模型。
  4. 影响: 增强基因组数据的可解释性和实用性,适用于广泛的应用。

样本数据预览

AC EC OC UniRef90 UniRef50 EmblCdsId Sequence UniRef100 Description
F9UMS6 4.1.1.101 Bacteria UniRef90_F9UMS6 UniRef50_F9UMS6 CCC78515.1 ATGACAAAAACTGCAAGTGA ... UniRef100_F9UMS6 The enzyme with the EC number 4.1.1.101 which is known as malolactic enzyme. It is ...
A0A0A7GEY4 2.5.1.1 Archaea UniRef90_A0A0A7GEY4 UniRef50_A0A0A7GEY4 AIY90378.1 ATGATTTCTGAGATAATTAA ... UniRef100_A0A0A7GEY4 Enzyme 2.5.1.1, identified as dimethylallyltranstransferase, is also known by geranyl-diphosphate synthase, prenyltransferase, ...

数据加载示例

python import pandas as pd

加载训练数据集

train_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Train.parquet) valid_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Valid.parquet)

显示前几行

print(train_df.head()) print(valid_df.head())

搜集汇总
数据集介绍
main_image_url
构建方式
在生物信息学领域,BioTalk数据集的构建旨在填补DNA序列与其功能描述之间的空白。该数据集通过整合来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练和验证数据,形成了一系列基准数据集(Benchmark-I至Benchmark-IV)。每个基准数据集均包含平衡的训练和验证数据,其中Benchmark-III和Benchmark-IV特别针对EC编号进行了平衡处理,确保每种EC编号至少有10个示例。此外,测试数据集(test1.csv和test2.csv)分别从Benchmark-III和Benchmark-IV中提取,用于评估模型的泛化能力。
特点
BioTalk数据集的显著特点在于其多模态性质,结合了DNA序列和自然语言描述,为基因功能预测提供了丰富的信息源。该数据集不仅支持单模态模型的训练,还特别适用于多模态模型的开发,如利用预训练的transformer模型进行DNA序列嵌入的质量评估和EC编号的预测。此外,BioTalk还提供了零样本和少样本学习的基准,利用大型语言模型(如Llama 3)进行多模态预测,进一步提升了数据集的应用潜力。
使用方法
使用BioTalk数据集时,用户可以通过提供的链接下载数据,并使用Python和pandas库加载数据。例如,通过`pd.read_parquet`函数可以直接读取训练和验证数据。数据集的结构清晰,便于用户根据需要选择合适的基准数据集进行模型训练和验证。此外,数据集还附带了用于评估DNA序列嵌入质量和进行EC编号预测的Python脚本,用户可以根据这些脚本快速上手并进行相关实验。
背景与挑战
背景概述
BioTalk数据集由Hoarfrost实验室创建,旨在填补DNA序列与其功能描述之间关联的空白。该数据集通过整合DNA序列和自然语言描述,为酶功能的多模态预测提供了全面的基准。BioTalk的开发不仅促进了多模态模型的研究,还提升了基因组数据的解释性和实用性,对生物信息学和基因组学领域产生了深远影响。
当前挑战
BioTalk数据集在构建过程中面临多项挑战。首先,整合DNA序列与自然语言描述需要精确的数据对齐和标注,确保信息的准确性和一致性。其次,多模态数据的处理和分析要求高效的算法和计算资源,以应对大规模数据的复杂性。此外,数据集的平衡性和代表性也是关键问题,确保训练和验证数据能够全面反映实际应用场景。最后,如何利用多模态数据进行零样本和少样本学习,以提高模型在有限数据条件下的预测能力,是当前研究的重要方向。
常用场景
经典使用场景
在生物信息学领域,BioTalk数据集的经典使用场景主要集中在酶功能预测的多模态模型开发上。该数据集通过结合DNA序列和自然语言描述,为研究人员提供了一个独特的平台,用于训练和验证能够从基因序列中预测酶功能的模型。这种多模态方法不仅提高了预测的准确性,还增强了模型的解释能力,使其在基因组学研究中具有广泛的应用前景。
衍生相关工作
基于BioTalk数据集,研究人员开发了多种相关的经典工作。例如,利用该数据集进行DNA序列嵌入质量评估和酶委员会(EC)编号预测,这些工作不仅验证了数据集的有效性,还推动了多模态模型在生物信息学中的应用。此外,通过使用大型语言模型(LLM)进行零样本和少样本学习,进一步扩展了数据集的应用范围,为未来的研究提供了新的方向。
数据集最近研究
最新研究方向
在生物信息学领域,BioTalk数据集的最新研究方向主要集中在多模态预测酶功能上。该数据集通过结合DNA序列和自然语言描述,填补了现有资源中的关键空白。前沿研究不仅探索了如何利用预训练的Transformer模型进行DNA序列嵌入的质量评估,还开发了基于DNA嵌入的酶分类号(EC)预测模型。此外,研究者们正在利用大型语言模型(如Llama 3)进行多模态的零样本和少样本学习,以提高酶功能预测的准确性和效率。这些研究不仅提升了基因组数据的解释性和实用性,还为生物医学领域的广泛应用奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作