Biology-Instructions
收藏arXiv2024-12-26 更新2024-12-31 收录
下载链接:
https://anonymous.4open.science/r/Biology-Instructions-FD66/
下载链接
链接失效反馈官方服务:
资源简介:
Biology-Instructions是由上海人工智能实验室创建的首个大规模多组学生物序列指令调优数据集,涵盖DNA、RNA、蛋白质及多分子预测任务,共包含21个子任务。该数据集拥有超过300万条训练样本,旨在通过多样化的生物序列任务提升大语言模型的推理能力和对话流畅性。数据集的构建过程包括从高质量文献和竞赛中收集任务数据,并通过人工和AI生成问答模板,确保语言风格和语法多样性。该数据集的应用领域主要集中在生物序列分析,旨在解决大语言模型在生物序列理解任务中的性能瓶颈,推动多组学序列分析与大语言模型的深度融合。
Biology-Instructions is the first large-scale multi-omic biological sequence instruction tuning dataset developed by the Shanghai AI Laboratory. It covers DNA, RNA, protein, and multi-molecule prediction tasks, totaling 21 subtasks. This dataset contains over 3 million training samples, aiming to enhance the reasoning capabilities and conversational fluency of large language models (LLMs) through diverse biological sequence tasks. The dataset construction process includes collecting task data from high-quality scholarly literature and competitions, and generating question-answer templates via both manual creation and AI-assisted generation to ensure diversity in linguistic styles and grammatical structures. The main application fields of this dataset focus on biological sequence analysis, aiming to address the performance bottlenecks of large language models in biological sequence understanding tasks and promote the in-depth integration of multi-omic sequence analysis and large language models.
提供机构:
上海人工智能实验室
创建时间:
2024-12-26
搜集汇总
数据集介绍

构建方式
Biology-Instructions数据集的构建过程涵盖了多组学生物序列的理解任务,包括DNA、RNA、蛋白质以及多分子相互作用。数据集的构建首先从多个高质量来源收集生物序列数据,并通过手动和自动化的方式生成问题-答案模板。每个任务的问题和答案模板均经过精心设计,以确保语言风格和语法多样性。此外,数据集还引入了推理数据,通过使用GPT-4等大型语言模型对原始答案进行优化,生成更具解释性和流畅性的推理路径。整个构建过程分为数据收集、模板生成和推理数据生成三个阶段,确保了数据集的高质量和多样性。
特点
Biology-Instructions数据集具有多组学、大规模和高质量的特点。它涵盖了21个不同的任务,涉及DNA、RNA、蛋白质以及多分子相互作用,能够全面支持生物序列的理解任务。数据集包含超过300万个训练样本,提供了丰富的生物序列相关指令数据,有助于模型更好地理解生物序列的特性和功能。此外,数据集通过引入推理数据,增强了模型在复杂生物任务中的推理能力,同时保持了对话的流畅性。每个任务的问题和答案模板均经过多样化设计,确保了数据集的多样性和实用性。
使用方法
Biology-Instructions数据集的使用方法主要包括三个阶段:生物序列的预训练、大规模指令微调和推理指令微调。首先,模型在无标签的DNA、RNA和蛋白质序列上进行预训练,以增强其对生物序列的理解能力。随后,模型在Biology-Instructions数据集上进行指令微调,学习如何根据自然语言指令解释生物序列。最后,模型在推理数据上进行微调,进一步加深其对生物序列的理解和推理能力。通过这种三阶段的训练方法,模型能够在保持对话能力的同时,显著提升其在多组学生物序列任务中的表现。
背景与挑战
背景概述
Biology-Instructions数据集由上海人工智能实验室的研究团队于2024年推出,旨在填补大型语言模型(LLMs)在多组学生物序列理解能力方面的研究空白。该数据集涵盖了DNA、RNA、蛋白质及多分子相关的21项任务,首次将多组学生物序列与指令调优相结合,旨在提升LLMs在生物序列分析中的推理能力和对话流畅性。通过引入ChatMultiOmics模型及其三阶段训练流程,研究团队展示了该数据集在增强LLMs生物序列理解能力方面的显著效果。Biology-Instructions的发布为多组学生物序列分析提供了重要的资源,推动了LLMs在生物医学领域的应用。
当前挑战
Biology-Instructions数据集在构建和应用过程中面临多重挑战。首先,多组学生物序列的复杂性要求模型能够同时处理不同类型的生物序列任务,这对模型的泛化能力提出了极高要求。其次,现有LLMs在未经专门训练的情况下,对生物序列任务的理解能力接近随机水平,表明LLMs缺乏对生物序列的固有知识。此外,数据集的构建过程中,如何将传统的分类和回归任务转化为指令调优格式,并确保问答模板的多样性和高质量,也是一大挑战。最后,尽管通过三阶段训练流程显著提升了模型性能,但如何进一步优化模型的推理能力,使其在生成任务中表现更佳,仍是未来研究的重要方向。
常用场景
经典使用场景
Biology-Instructions数据集被广泛应用于多组学生物序列理解任务,特别是在DNA、RNA、蛋白质及多分子相互作用的研究中。该数据集通过指令调优的方式,帮助大型语言模型(LLMs)在生物序列分析中展现出更强的推理能力和对话流畅性。其经典使用场景包括基因表达调控、RNA修饰预测、蛋白质功能注释以及抗体-抗原相互作用分析等。
实际应用
在实际应用中,Biology-Instructions数据集被用于开发生物信息学工具,如基因表达预测、RNA修饰检测、蛋白质功能注释和抗体设计等。这些工具在疾病研究、药物开发和合成生物学中具有重要价值。例如,通过预测RNA修饰位点,研究人员可以更好地理解RNA调控机制;通过分析抗体-抗原相互作用,可以加速新抗体的设计与优化。
衍生相关工作
基于Biology-Instructions数据集,研究者开发了ChatMultiOmics模型,该模型通过三阶段训练流程显著提升了LLMs在多组学生物序列任务中的表现。此外,该数据集还启发了其他相关工作,如ChatNT和ProLlama等模型,这些模型在单组学生物序列任务中表现出色,但未能完全解决多组学任务。Biology-Instructions的发布为生物信息学领域提供了重要的基准和资源,推动了LLMs在生物序列分析中的应用。
以上内容由遇见数据集搜集并总结生成



