BAAI/OPI|蛋白质分析数据集|生物信息学数据集
收藏数据集卡片 for Open Protein Instructions (OPI)
数据集更新
OPI 数据集的先前版本基于 UniProtKB/Swiss-Prot 蛋白质知识库的 2022_01 版本。目前,OPI 已更新至包含最新的 2023_05 版本,可通过数据集文件 OPI_updated_160k.json 访问。
数据集描述
数据集概述
Open Protein Instructions (OPI) 是 Open Biology Instructions (OBI) 项目的初始部分,与后续的 Open Molecule Instructions (OMI)、Open DNA Instructions (ODI)、Open RNA Instructions (ORI) 和 Open Single-cell Instructions (OSCI) 一起。OBI 项目旨在充分利用大型语言模型(LLMs),特别是像 Galactica 这样的科学 LLMs,以促进生命科学领域的人工智能研究。尽管 OBI 仍处于早期阶段,我们希望为社区提供一个起点,以桥接 LLMs 和生物学领域知识。
数据实例
instruction:
What is the EC classification of the input protein sequence based on its biological function?
input:
MGLVSSKKPDKEKPIKEKDKGQWSPLKVSAQDKDAPPLPPLVVFNHLTPPPPDEHLDEDKHFVVALYDYTAMNDRDLQMLKGEKLQVLKGTGDWWLARS
LVTGREGYVPSNFVARVESLEMERWFFRSQGRKEAERQLLAPINKAGSFLIRESETNKGAFSLSVKDVTTQGELIKHYKIRCLDEGGYYISPRITFPSL
QALVQHYSKKGDGLCQRLTLPCVRPAPQNPWAQDEWEIPRQSLRLVRKLGSGQFGEVWMGYYKNNMKVAIKTLKEGTMSPEAFLGEANVMKALQHERLV
RLYAVVTKEPIYIVTEYMARGCLLDFLKTDEGSRLSLPRLIDMSAQIAEGMAYIERMNSIHRDLRAANILVSEALCCKIADFGLARIIDSEYTAQEGAK
FPIKWTAPEAIHFGVFTIKADVWSFGVLLMEVVTYGRVPYPGMSNPEVIRNLERGYRMPRPDTCPPELYRGVIAECWRSRPEERPTFEFLQSVLEDFYT
ATERQYELQP
output:
2.7.10.2
数据分割
OPI 数据集的文件夹结构如下:
./OPI_DATA/ ├── AP │ ├── Function │ │ ├── test │ │ │ ├── CASPSimilarSeq_function_test.jsonl │ │ │ ├── IDFilterSeq_function_test.jsonl │ │ │ └── UniProtSeq_function_test.jsonl │ │ └── train │ │ ├── function_description_train.json │ │ └── function_description_train_0.01.json │ ├── GO │ │ ├── test │ │ │ ├── CASPSimilarSeq_go_test.jsonl │ │ │ ├── IDFilterSeq_go_test.jsonl │ │ │ └── UniProtSeq_go_test.jsonl │ │ └── train │ │ ├── go_terms_train.json │ │ └── go_terms_train_0.01.json │ └── Keywords │ ├── test │ │ ├── CASPSimilarSeq_keywords_test.jsonl │ │ ├── IDFilterSeq_keywords_test.jsonl │ │ └── UniProtSeq_keywords_test.jsonl │ └── train │ ├── keywords_train.json │ └── keywords_train_0.01.json ├── KM │ ├── gSymbol2Cancer │ │ ├── test │ │ │ └── gene_symbol_to_cancer_test.jsonl │ │ └── train │ │ └── gene_symbol_to_cancer_train.json │ ├── gName2Cancer │ │ ├── test │ │ │ └── gene_name_to_cancer_test.jsonl │ │ └── train │ │ └── gene_name_to_cancer_train.json │ └── gSymbol2Tissue │ ├── test │ │ └── gene_symbol_to_tissue_test.jsonl │ └── train │ └── gene_symbol_to_tissue_train.json └── SU ├── EC_number │ ├── test │ │ ├── CLEAN_EC_number_new_test.jsonl │ │ └── CLEAN_EC_number_price_test.jsonl │ └── train │ ├── CLEAN_EC_number_train.json ├── Fold_type-Remote │ ├── test │ │ └── Remote_test.jsonl │ └── train │ └── Remote_train.json └── Subcellular_location ├── test │ ├── location_test.jsonl └── train └── location_train.json
数据集创建
OPI 数据集由我们自己策划,从 Swiss-Prot 数据库中提取关键信息。详细的构建流程在我们的手稿补充材料中描述,该手稿已提交至 NeurIPS 2023 数据集和基准。下图展示了构建过程的概述。
许可证
该数据集采用 Creative Commons Attribution Non Commercial 4.0 许可证。使用此数据集还应遵守 UniProt 的原始 License & Disclaimer 和 Privacy Notice。

Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
Bloomberg Billionaires Index
Bloomberg Billionaires Index是一个每日更新的全球富豪排行榜,追踪全球最富有的500人的财富变化。该指数涵盖了来自不同行业的亿万富翁,包括科技、金融、零售等领域的顶级富豪。数据集提供了每位富豪的姓名、财富总额、财富来源、所在国家或地区等信息。
www.bloomberg.com 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
NLSY (National Longitudinal Survey of Youth)
NLSY是一个长期追踪调查,始于1979年,旨在研究美国年轻人的社会经济和健康状况。该数据集包括受访者的教育、就业、收入、家庭背景、健康状况等多方面的信息,并定期更新以反映受访者的变化。
www.nlsinfo.org 收录