QuBioCUB

Hugging Face2025-12-21 更新2025-12-22 收录

下载链接：

https://huggingface.co/datasets/abdeldjalilhani/QuBioCUB

下载链接

链接失效反馈

官方服务：

资源简介：

QuBioCUB（量子生物学密码子使用偏好）是一个全面的多领域数据集，专为密码子使用偏好分析设计，适用于量子计算应用。该数据集提供了标准化的密码子使用指标、量子编码和跨122个生物体的基准任务，涵盖细菌、古菌和真核生物三个生命领域。数据集包含400,919个基因的密码子使用偏好指标，提供三种量子编码方案（振幅、角度、基），并以Parquet、CSV和NumPy数组格式存储，适用于多样化的工作流程。此外，数据集还包含预配置的机器学习和量子计算基准任务，以及丰富的注释信息，如KEGG通路和表达元数据。

创建时间：

2025-12-19

原始信息汇总

QuBioCUB v1.0 数据集概述

数据集基本信息

数据集名称: QuBioCUB (Quantum Biology Codon Usage Bias)
版本: 1.0.0
创建日期: 2025年12月18日
许可证: CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
DOI: 10.5281/zenodo.17989869

数据集简介

QuBioCUB 是一个全面的、多领域的、专为密码子使用偏好分析设计的数据集，并适用于量子计算应用。该数据集提供了标准化的密码子使用度量、量子编码以及涵盖三个生命领域（细菌、古菌和真核生物）的基准任务。

关键特性

多领域覆盖: 包含122个生物体（86个细菌，28个古菌，8个真核生物）。
全面的度量指标: 包含400,919个基因的密码子使用偏好指标。
量子就绪编码: 提供三种量子编码方案（振幅、角度、基矢）。
标准化格式: 提供Parquet、CSV和NumPy数组格式，适用于多样化工作流。
基准任务: 预配置的机器学习和量子计算基准任务。
丰富的注释: 包含KEGG通路和表达元数据。

数据集统计

指标	数值
生物体总数	122
基因总数	400,919
分析的密码子总数	24,456,059
碱基对总数	417,631,263
每个生物体的平均基因数	3,286
领域分布	细菌: 86，古菌: 28，真核生物: 8

数据内容与结构

1. 密码子使用偏好度量 (`cub_metrics/`)

每个生物体包含全面的密码子使用偏好度量，包括：

ENC (有效密码子数): 衡量密码子使用的均匀性（范围20-61）。
CAI (密码子适应指数): 对最优密码子使用的适应性（范围0-1）。
RSCU (相对同义密码子使用度): 所有61个有义密码子的使用频率。
GC含量: 总体和位置特异性的GC百分比。
基因长度: CDS长度（以碱基对计）。

可用格式: CSV（人类可读）、Parquet（压缩，适用于大规模分析）。 覆盖率: ENC覆盖率为36.5%（146,440个基因），CAI覆盖率为100%（400,919个基因）。

2. 基因组序列 (`genomic_data/`)

CDS序列: FASTA格式的编码序列。
提取统计: 质量度量和处理日志。
总碱基对: 所有生物体共417,631,263 bp。

3. 量子编码 (`quantum_encodings/`)

为量子机器学习应用预计算的量子编码：

振幅编码: 将RSCU值归一化为量子态振幅。
角度编码: 将密码子特征映射到旋转角度。
基矢编码: 量子基矢状态的二进制编码。格式: NumPy数组（.npy），可直接与量子框架集成。 可用性: 部分可用（每种编码类型对应122个生物体）。

4. 基准任务 (`benchmark_tasks/`)

任务1: ENC预测（回归）

目标: 根据RSCU模式预测有效密码子数。
输入特征: RSCU值、GC含量、基因长度。
目标值: ENC（连续值）。
评估指标: 均方误差（MSE）。
数据集划分: 117,094个训练样本 / 29,341个测试样本。

任务2: 表达水平分类

目标: 将基因分类为高/中/低表达水平。
输入特征: ENC、RSCU模式、GC含量。
目标值: 表达水平（3个类别）。
评估指标: 准确率、加权F1分数。
数据集划分: 320,687个训练样本 / 80,232个测试样本。
方法: 表达水平源自CAI分位数。

5. 补充数据 (`supplementary_data/`)

KEGG注释: 通路和功能注释。
表达元数据: 用于分类任务的基因表达信息。

主要数据文件

文件	描述	格式
`data_dictionary.csv`	完整的特征定义和数据类型	CSV
`dataset_statistics.json`	整体数据集统计和元数据	JSON
`organism_metadata.csv`	每个生物体的汇总统计	CSV

生物体覆盖范围

数据集包含来自不同系统发育群的代表性生物体：

细菌 (86个生物体): 包括大肠杆菌、枯草芽孢杆菌等模式生物、致病菌、极端微生物和工业菌株。
古菌 (28个生物体): 涵盖嗜盐菌、嗜热菌和产甲烷菌。
真核生物 (8个生物体): 包括构巢曲霉、盘基网柄菌和微小隐孢子虫。

质量控制

所有生物体均经过质量控制处理，包括：

最小CDS长度过滤。
密码子计数验证。
统计异常值检测。
格式一致性检查。处理状态可在 cub_metrics/processing_summary.csv 中查看。

使用场景

该数据集适用于：

量子机器学习: 使用预编码的生物数据训练量子神经网络。
密码子优化: 为表达系统设计合成基因。
进化生物学: 研究跨生命领域的密码子使用模式。
机器学习基准测试: 测试经典和量子算法。
合成生物学: 设计优化的遗传构建体。
比较基因组学: 跨物种密码子使用分析。

引用格式

bibtex @dataset{qubiocub2025, title={QuBioCUB v1.0: Quantum-Ready Dataset for Codon Usage Bias Analysis}, author={Abdeldjalil Hani and Safia Djemame and Imene Zenbout}, year={2025}, publisher={Zenodo}, doi={10.5281/zenodo.17989869}, version={1.0.0} }

版本历史

版本 1.0.0 (2025年12月18日): 初始版本。包含三个生命领域的122个生物体、400,919个带有密码子使用度量的基因、三种量子编码方案和两个基准任务。

搜集汇总

数据集介绍

构建方式

在生物信息学领域，系统性地构建大规模数据集对于推进密码子使用偏好研究至关重要。QuBioCUB数据集通过整合来自细菌、古菌和真核生物三个生命域的122个代表性物种的基因组数据，构建了一个全面的分析框架。其构建过程始于从公开数据库获取高质量的编码序列，随后应用严格的质控流程，包括最小CDS长度过滤和统计异常值检测，以确保数据的可靠性。最终，数据集不仅计算了包括有效密码子数、密码子适应指数在内的多种密码子使用偏好指标，还预先计算了适用于量子计算的三种编码方案，为跨领域的比较研究奠定了坚实基础。

特点

该数据集的核心特点在于其多维度、跨领域的综合设计。它覆盖了总计400,919个基因，分析了超过2400万个密码子，提供了从经典统计指标到量子编码的丰富数据层。尤为突出的是，数据集预先集成了振幅编码、角度编码和基编码三种量子就绪的编码方案，为量子机器学习在生物学中的应用提供了直接可用的接口。此外，数据集还包含了KEGG通路注释和基因表达元数据等补充信息，并预设了回归与分类两项基准任务，支持从基础研究到算法验证的多种应用场景。

使用方法

研究人员可通过多种技术路径利用该数据集展开探索。对于经典计算任务，用户可直接加载Parquet或CSV格式的密码子使用偏好指标文件，利用预设的基准任务进行机器学习模型训练与评估。若涉及量子计算研究，则可直接调用预生成的NumPy格式量子编码数组，将其集成至量子算法框架中。数据集的层级化存储结构便于按需访问，例如针对特定物种的分析，可进入对应子目录获取其所有相关数据。这种设计确保了数据集既能服务于传统的生物信息学分析，也能无缝对接前沿的量子计算实验。

背景与挑战

背景概述

QuBioCUB数据集于2025年12月18日由Abdeldjalil Hani、Safia Djemame和Imene Zenbout等研究人员创建并发布，标志着量子计算与生物信息学交叉领域的重要进展。该数据集聚焦于密码子使用偏好分析这一核心研究问题，旨在通过整合来自细菌、古菌和真核生物三大生命域的122个代表性物种的基因组数据，为量子机器学习算法提供标准化、可计算的生物学基准。其涵盖超过40万个基因的密码子使用指标，不仅深化了我们对基因表达调控和进化适应机制的理解，也为合成生物学中的基因优化设计提供了关键数据支撑，推动了经典计算与量子计算在生命科学中的融合应用。

当前挑战

在密码子使用偏好分析领域，主要挑战在于如何量化并解释不同物种间复杂的密码子选择模式，这些模式受到突变压力、翻译效率及自然选择等多重进化力量的交织影响。构建QuBioCUB数据集的过程中，研究人员需克服数据整合的复杂性，包括从多样化的基因组来源中提取并标准化编码序列，确保跨域物种数据的可比性与质量。同时，为适配量子计算框架，将高维生物学特征转化为有效的量子编码（如振幅、角度和基态编码）亦构成显著的技术障碍，需在信息保真度与计算可行性之间取得精密平衡。

常用场景

经典使用场景

在量子生物学与计算生物学交叉领域，QuBioCUB数据集为密码子使用偏好分析提供了标准化的多域基准。其经典使用场景聚焦于利用量子机器学习模型，对涵盖细菌、古菌和真核生物的122种生物体的密码子使用模式进行预测与分类。研究者可借助数据集预置的振幅、角度和基矢编码方案，将生物序列特征映射至量子态，进而训练量子神经网络完成如有效密码子数预测等任务，为探索量子计算在生物信息学中的潜力奠定数据基础。

衍生相关工作

围绕QuBioCUB数据集，已衍生出若干探索量子-经典混合计算范式的经典工作。例如，研究者利用其量子编码数据，开发了用于密码子优化目标预测的变分量子算法；另有工作基于其基准任务，对比了量子神经网络与经典深度学习模型在生物序列分类任务上的性能差异。这些研究不仅验证了数据集在量子生物信息学中的实用性，也进一步拓展了其在量子优势论证与新型生物计算模型开发中的应用边界。

数据集最近研究