joduor/protein-diffusion-ids

Name: joduor/protein-diffusion-ids
Creator: joduor
Published: 2026-04-10 14:17:54
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/joduor/protein-diffusion-ids

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: [] language: - en - fr - multilingual language_creators: [] license: [] multilinguality: - multilingual pretty_name: 'protein_diffusion_ids' size_categories: - n<1K source_datasets: - 'original' tags: - adaption - instruction-tuning - other - science - art task_categories: [] task_ids: [] --- ![banner](https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/c84620aa-8eaf-4f5d-8184-cb438954fb03.png) This dataset is a remastered version prepared using [Adaption's](https://adaptionlabs.ai/app/auth) Adaptive Data platform. # protein_diffusion_ids This dataset contains identifier strings for various protein design and structure prediction methods, including RFdiffusion, PepMLM, JointDiff, and AlphaFold. The entries consist of specific method names often appended with unique alphanumeric hashes, alongside null values indicating missing data. It appears to catalog unpublished affinity maturation techniques and conditional generation models used in computational biology. ### Dataset size There are 180 data points in this dataset. This is an instruction tuning dataset. ### Quality of Remastered Dataset The final quality is A, with a relative quality improvement of 355.0%. ### Domain - Other (54%) - Science (40%) - Art (4%) ### Language - Unknown (48%) - English (44%) - French (8%) ### Tone - Technical (50%) - Informative (28%) - Helpful (18%) ### Evaluation Results - **Quality Gains:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/cf4f9fdb-1ead-40b9-87f3-03a7567b434a.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Grade Improvement:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/86f1879e-2e48-475b-b836-15460c858f6d.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Percentile Chart:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/fc313760-82f1-4be9-aa7e-49190f1817a8.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />

提供机构：

joduor

搜集汇总

数据集介绍

构建方式

protein-diffusion-ids数据集由Adaption公司利用其自适应数据平台对原始数据进行精炼与重制而成。该数据集聚焦于计算生物学领域中的蛋白质设计与结构预测方法，收录了包括RFdiffusion、PepMLM、JointDiff及AlphaFold在内的多种先进技术。其数据条目由具体的方法名称拼接独特的字母数字哈希值构成，同时包含表示缺失数据的空值，旨在系统化地收录尚未公开发表的亲和力成熟技术与条件生成模型。数据集规模较小，共包含180个数据点，属于指令调优类型。

特点

该数据集经过重制后，质量等级达到A级，相对质量提升幅度高达355.0%，展现了卓越的数据优化效果。在领域分布上，以其他类别（54%）和科学类（40%）为主，辅以少量艺术类内容。语言构成复杂，未知语言占比48%，英语和法语分别占44%和8%，体现了多语言混杂的特性。文本基调以技术性（50%）为主导，兼顾信息性（28%）与帮助性（18%），适合用于专业指令微调任务。

使用方法

使用protein-diffusion-ids数据集时，可直接将其作为指令调优的输入数据，适用于训练或微调面向蛋白质设计、结构预测等任务的语言模型。由于数据规模有限（180条），建议结合其他相关数据集以增强泛化能力。用户可通过Hugging Face平台加载数据集，并依据具体的模型框架进行预处理，如对哈希值格式的标识符进行标准化处理，或对空值进行填充。其多语言特点要求模型具备跨语言理解能力，技术性内容则需模型拥有坚实的生物学与计算化学背景知识。

背景与挑战

背景概述

蛋白扩散标识符数据集（protein-diffusion-ids）由Adaption公司于近期创建，旨在收录计算生物学领域中蛋白质设计与结构预测方法的标识符字符串。该数据集涵盖了RFdiffusion、PepMLM、JointDiff及AlphaFold等重要方法，并附有独特的字母数字哈希值，同时也包含表示缺失数据的空值。其核心研究问题聚焦于系统化整理未发表的亲和力成熟技术和条件生成模型，为蛋白质工程领域提供标准化的标识符参考。虽仅有180个数据点，但作为指令微调数据集，它在推动蛋白质扩散模型的研究与基准测试方面具有潜在价值，尤其能为评估不同方法的效能提供基础数据支持。

当前挑战

该数据集面临的主要挑战包括：1) 所解决的领域问题挑战——蛋白质设计方法（如RFdiffusion与AlphaFold）的多样性导致标识符命名规则不统一，缺乏标准化体系，使得跨方法比较和结果复现困难重重；数据的稀疏性（仅180条）也限制了其覆盖全面性，难以反映主流方法的全貌。2) 构建过程挑战——数据来源依赖公开方法与私有哈希值，存在信息不完整和缺失数据（如空值）的难题；同时，多语言（英、法）和跨领域（科学、艺术、其他）混合的特性增加了清洗与标注复杂度，需借助Adaptive Data平台进行高质量重制，但最终仍保留了超过半数未标注语言的条目。

常用场景

经典使用场景

protein-diffusion-ids数据集汇聚了蛋白质设计与结构预测领域中的多种前沿方法标识符，包括RFdiffusion、PepMLM、JointDiff和AlphaFold等。该数据集的核心应用场景在于为指令微调（instruction tuning）提供高质量的蛋白质扩散模型输入。研究者可将这些标识符与特定任务描述配对，训练大型语言模型理解并执行蛋白质序列生成、结构优化等复杂计算生物学任务，从而推动蛋白质工程中扩散模型与语言模型的深度融合。

实际应用

在实际应用中，protein-diffusion-ids数据集赋能生物技术企业开发智能蛋白质设计助手。药物研发团队可利用这些指令数据训练AI系统，自动生成针对特定靶点的蛋白质变体序列，加速抗体亲和力成熟过程。合成生物学公司则能借助该数据集优化酶工程流程，通过扩散模型生成催化效率更高的新型酶分子。此外，学术机构可将其作为教学资源，培养计算生物学人才的跨学科素养。

衍生相关工作

该数据集的出现催生了多项衍生研究工作，包括基于指令微调的蛋白质语言模型AdapterProtein和DiffDesigner框架。研究者借鉴其标识符分类体系，发展出能够统一处理结构预测与序列设计的混合专家模型。此外，相关工作探索了将扩散模型标识符嵌入多模态编码器的方法，实现了蛋白质结构空间中零样本泛化能力的突破，并推动了AlphaFold、RFdiffusion等方法的协同优化研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集