nuriamimbreropelegri/generated_sequences

Name: nuriamimbreropelegri/generated_sequences
Creator: nuriamimbreropelegri
Published: 2024-02-23 11:38:12
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nuriamimbreropelegri/generated_sequences

下载链接

链接失效反馈

官方服务：

资源简介：

2 DATASETS: 1) Generated sequences: generated_sequences/generated_dataset_corrected_index.fasta 2) Natural sequences:generated_sequences/natural_dataset.fasta RELATE REACTIONS AND SEQUENCES: In the natural sequences dataset, sequences can be related with the reaction used to generate them. The sequence tag indicates the SMILE of the sequence. In the generated sequences dataset, sequences can be related with the reaction used to generate them: * Example of one sequence tag of the generated dataset: holdout_9_reac_generated/holdout_0_15.743307701421433_497: This belongs to the reaction with index number 9 (index numbers and reactions are stored in the folder generated_sequences/index_reaction_numbers. PD: number 0 indicates the first sequence generated for this reaction, number 15.743307701421433 indicates perplexity and number 497 indicates the lenght. ADDITIONAL INFORMATION ABOUT THE DATASET GENERATION: Information of the datasets generated with the model for 4 different groups of reactions: * First_generation_seqeuences_and_reactions 1) MOST REPEATED REACTIONS: 100 sequences are generated for each of the 20 most repeated reactions in the training set (2,000 sequences in total) 2) LESS REPEATED REACTIONS: 100 sequences are generated for each of the 98 less repeated reactions in the training set (9,800 sequences in total) 3) MIDDLE REPEATED REACTIONS: 100 sequences are generated for each of the 40 middle repeated reactions in the training set (4,000 sequences in total) (the middle is calculated using the median) 4) HOLDOUT DATASET REACTIONS: 100 sequences are generated for each of the 40 reactions never seen in the training set (4,000 sequences in total) All those generated sequences are then filtered by pLDDT value > 70 (calculated using ESMFold)

提供机构：

nuriamimbreropelegri

原始信息汇总

数据集概述

本数据集包含两部分：

生成的序列数据集：位于 generated_sequences/generated_dataset_corrected_index.fasta。
自然序列数据集：位于 generated_sequences/natural_dataset.fasta。

序列与反应的关系

自然序列数据集：序列标签指示序列的 SMILE 表示，可以与生成它们的反应相关联。
生成的序列数据集：序列标签与生成它们的反应相关联。例如，标签 holdout_9_reac_generated/holdout_0_15.743307701421433_497 表示该序列属于索引号为 9 的反应。其中，数字 0 表示该反应生成的第一个序列，15.743307701421433 表示困惑度，497 表示序列长度。索引号和反应存储在 generated_sequences/index_reaction_numbers 文件夹中。

数据集生成信息

数据集使用模型生成了四组不同反应的序列：

最频繁反应：为训练集中最频繁的 20 个反应各生成 100 个序列，共 2,000 个序列。
较少频繁反应：为训练集中较少频繁的 98 个反应各生成 100 个序列，共 9,800 个序列。
中等频繁反应：为训练集中中等频繁的 40 个反应各生成 100 个序列，共 4,000 个序列（中等频率通过中位数计算）。
未见过的反应：为训练集中未见过的 40 个反应各生成 100 个序列，共 4,000 个序列。

所有生成的序列都经过 pLDDT 值大于 70 的筛选（使用 ESMFold 计算）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集