five

BAAI/OPI|蛋白质分析数据集|生物信息学数据集

收藏
hugging_face2024-03-05 更新2024-03-04 收录
蛋白质分析
生物信息学
下载链接:
https://hf-mirror.com/datasets/BAAI/OPI
下载链接
链接失效反馈
资源简介:
Open Protein Instructions (OPI) 数据集是Open Biology Instructions (OBI) 项目的一部分,专注于蛋白质领域的学习和研究。该数据集通过整合、清洗、标注等处理来自第三方原始数据集的数据,提供详细的蛋白质序列及其生物功能分类信息,如EC分类。数据集结构包括多个子文件夹和不同类型的数据文件,用于训练和测试。OPI数据集遵循Creative Commons Attribution Non Commercial 4.0 License,并需遵守原始数据集的许可和免责声明。
提供机构:
BAAI
原始信息汇总

数据集卡片 for Open Protein Instructions (OPI)

数据集更新

OPI 数据集的先前版本基于 UniProtKB/Swiss-Prot 蛋白质知识库的 2022_01 版本。目前,OPI 已更新至包含最新的 2023_05 版本,可通过数据集文件 OPI_updated_160k.json 访问。

数据集描述

数据集概述

Open Protein Instructions (OPI) 是 Open Biology Instructions (OBI) 项目的初始部分,与后续的 Open Molecule Instructions (OMI)、Open DNA Instructions (ODI)、Open RNA Instructions (ORI) 和 Open Single-cell Instructions (OSCI) 一起。OBI 项目旨在充分利用大型语言模型(LLMs),特别是像 Galactica 这样的科学 LLMs,以促进生命科学领域的人工智能研究。尽管 OBI 仍处于早期阶段,我们希望为社区提供一个起点,以桥接 LLMs 和生物学领域知识。

数据实例

instruction: What is the EC classification of the input protein sequence based on its biological function? input:
MGLVSSKKPDKEKPIKEKDKGQWSPLKVSAQDKDAPPLPPLVVFNHLTPPPPDEHLDEDKHFVVALYDYTAMNDRDLQMLKGEKLQVLKGTGDWWLARS LVTGREGYVPSNFVARVESLEMERWFFRSQGRKEAERQLLAPINKAGSFLIRESETNKGAFSLSVKDVTTQGELIKHYKIRCLDEGGYYISPRITFPSL QALVQHYSKKGDGLCQRLTLPCVRPAPQNPWAQDEWEIPRQSLRLVRKLGSGQFGEVWMGYYKNNMKVAIKTLKEGTMSPEAFLGEANVMKALQHERLV RLYAVVTKEPIYIVTEYMARGCLLDFLKTDEGSRLSLPRLIDMSAQIAEGMAYIERMNSIHRDLRAANILVSEALCCKIADFGLARIIDSEYTAQEGAK FPIKWTAPEAIHFGVFTIKADVWSFGVLLMEVVTYGRVPYPGMSNPEVIRNLERGYRMPRPDTCPPELYRGVIAECWRSRPEERPTFEFLQSVLEDFYT ATERQYELQP output: 2.7.10.2

数据分割

OPI 数据集的文件夹结构如下:

./OPI_DATA/ ├── AP │ ├── Function │ │ ├── test │ │ │ ├── CASPSimilarSeq_function_test.jsonl │ │ │ ├── IDFilterSeq_function_test.jsonl │ │ │ └── UniProtSeq_function_test.jsonl │ │ └── train │ │ ├── function_description_train.json │ │ └── function_description_train_0.01.json │ ├── GO │ │ ├── test │ │ │ ├── CASPSimilarSeq_go_test.jsonl │ │ │ ├── IDFilterSeq_go_test.jsonl │ │ │ └── UniProtSeq_go_test.jsonl │ │ └── train │ │ ├── go_terms_train.json │ │ └── go_terms_train_0.01.json │ └── Keywords │ ├── test │ │ ├── CASPSimilarSeq_keywords_test.jsonl │ │ ├── IDFilterSeq_keywords_test.jsonl │ │ └── UniProtSeq_keywords_test.jsonl │ └── train │ ├── keywords_train.json │ └── keywords_train_0.01.json ├── KM │ ├── gSymbol2Cancer │ │ ├── test │ │ │ └── gene_symbol_to_cancer_test.jsonl │ │ └── train │ │ └── gene_symbol_to_cancer_train.json │ ├── gName2Cancer │ │ ├── test │ │ │ └── gene_name_to_cancer_test.jsonl │ │ └── train │ │ └── gene_name_to_cancer_train.json │ └── gSymbol2Tissue │ ├── test │ │ └── gene_symbol_to_tissue_test.jsonl │ └── train │ └── gene_symbol_to_tissue_train.json └── SU ├── EC_number │ ├── test │ │ ├── CLEAN_EC_number_new_test.jsonl │ │ └── CLEAN_EC_number_price_test.jsonl │ └── train │ ├── CLEAN_EC_number_train.json ├── Fold_type-Remote │ ├── test │ │ └── Remote_test.jsonl │ └── train │ └── Remote_train.json └── Subcellular_location ├── test │ ├── location_test.jsonl └── train └── location_train.json

数据集创建

OPI 数据集由我们自己策划,从 Swiss-Prot 数据库中提取关键信息。详细的构建流程在我们的手稿补充材料中描述,该手稿已提交至 NeurIPS 2023 数据集和基准。下图展示了构建过程的概述。 image.png

许可证

该数据集采用 Creative Commons Attribution Non Commercial 4.0 许可证。使用此数据集还应遵守 UniProt 的原始 License & DisclaimerPrivacy Notice

AI搜集汇总
数据集介绍
main_image_url
构建方式
OPI数据集的构建是基于对Swiss-Prot数据库的关键信息提取,通过对蛋白质序列的生物功能进行分类和标注,形成了包含9个蛋白质相关任务的指令数据集。这一过程涉及数据清洗、格式整合、标注和分类等多个步骤,以确保数据集的质量和适用性。
特点
OPI数据集的特点在于其涵盖了广泛的蛋白质生物学任务,如EC编号预测、折叠类型预测、亚细胞定位预测等,为大型语言模型在蛋白质领域的应用提供了丰富的指令和注释。数据集还注重隐私保护和知识产权的尊重,确保了数据使用的合法性和安全性。
使用方法
使用OPI数据集时,用户需遵守Creative Commons Attribution Non Commercial 4.0 License以及UniProt的原始许可和隐私通知。用户可以通过HuggingFace平台下载数据集,并在学术研究和学习目的下使用。同时,用户应确保在使用过程中不侵犯任何第三方权利,并妥善处理可能涉及的个人信息。
背景与挑战
背景概述
Open Protein Instructions(OPI)数据集,由北京人工智能研究院(BAAI)提供,旨在推动大型语言模型在蛋白质生物学领域的应用研究。该数据集整合了来自第三方原始数据集的信息,经过格式整合、数据清洗、标注、分类和注释等处理,形成了覆盖9个蛋白质相关任务的指令集。OPI数据集是Open Biology Instructions(OBI)项目的初始部分,该项目旨在充分利用大型语言模型,尤其是科学LLM模型如Galactica,以促进生命科学社区的研究。OPI数据集的研究背景是推动AI在生命科学领域的应用,创建时间为2024年,主要研究机构为北京人工智能研究院。
当前挑战
在构建OPI数据集的过程中,研究人员面临了多个挑战。首先,数据集的构建需要从Swiss-Prot数据库中提取关键信息,这要求精确的数据处理技术。其次,数据集需要遵守原始数据集的版权和使用规则,同时确保不侵犯任何第三方的知识产权。此外,数据集的构建还需考虑到个人信息的保护,避免涉及个人隐私信息的处理。在使用过程中,研究人员还需面对如何准确理解和应用数据集中的指令,以及如何处理可能存在的数据不准确或不完整的问题。
常用场景
经典使用场景
OPI数据集的经典使用场景在于为大型语言模型(LLM)提供针对蛋白质相关任务的指令调优(instruction tuning)训练数据。该数据集包含9个蛋白质相关任务,如EC编号预测、折叠类型预测、亚细胞定位预测等,为LLM在蛋白质生物学领域的应用提供了丰富的指令示例和训练场景。
实际应用
在实际应用中,OPI数据集可以被用于药物设计、生物信息学研究和蛋白质工程等领域。它为研究人员提供了工具,以更准确地预测蛋白质的功能和与其他分子的交互,这对于疾病治疗和新药开发具有重要意义。
衍生相关工作
基于OPI数据集,已经衍生出了一系列相关工作,包括对LLM在蛋白质任务上的性能评估、指令调优方法的改进,以及结合其他生物信息学数据源的综合分析。这些工作进一步扩展了OPI数据集的应用范围,并推动了相关领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

Bloomberg Billionaires Index

Bloomberg Billionaires Index是一个每日更新的全球富豪排行榜,追踪全球最富有的500人的财富变化。该指数涵盖了来自不同行业的亿万富翁,包括科技、金融、零售等领域的顶级富豪。数据集提供了每位富豪的姓名、财富总额、财富来源、所在国家或地区等信息。

www.bloomberg.com 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

NLSY (National Longitudinal Survey of Youth)

NLSY是一个长期追踪调查,始于1979年,旨在研究美国年轻人的社会经济和健康状况。该数据集包括受访者的教育、就业、收入、家庭背景、健康状况等多方面的信息,并定期更新以反映受访者的变化。

www.nlsinfo.org 收录