katielink/genomic-benchmarks

Name: katielink/genomic-benchmarks
Creator: katielink
Published: 2023-08-25 20:01:25
License: 暂无描述

Hugging Face2023-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/katielink/genomic-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

Genomic Benchmark是一个用于基因组序列分类的基准测试数据集集合。它包含了多个子数据集，每个子数据集都有训练集和测试集，数据格式为gzipped CSV文件，类似于BED格式。数据集主要用于测试和演示目的，部分数据集可能不具备生物学相关性或完全可重复性。数据集还提供了版本控制机制，建议在使用时检查版本号以确保数据的准确性。

Genomic Benchmark is a collection of benchmark datasets for genomic sequence classification. It comprises multiple subdatasets, each containing a training set and a test set, with data stored in gzipped CSV files similar to the BED format. This collection is primarily intended for testing and demonstration purposes; some subdatasets may lack biological relevance or full reproducibility. The dataset collection also provides a version control mechanism, and it is recommended to check the version number prior to use to ensure data accuracy.

提供机构：

katielink

原始信息汇总

数据集概述

数据集配置

配置名称：demo_coding_vs_intergenomic_seqs

训练数据路径：demo_coding_vs_intergenomic_seqs/train/*.csv.gz
测试数据路径：demo_coding_vs_intergenomic_seqs/test/*.csv.gz

配置名称：demo_human_or_worm

训练数据路径：demo_human_or_worm/train/*.csv.gz
测试数据路径：demo_human_or_worm/test/*.csv.gz

配置名称：drosphilia_enhancers_stark

训练数据路径：drosphilia_enhancers_stark/train/*.csv.gz
测试数据路径：drosphilia_enhancers_stark/test/*.csv.gz

配置名称：dummy_mouse_enhancers_ensembl

训练数据路径：dummy_mouse_enhancers_ensembl/train/*.csv.gz
测试数据路径：dummy_mouse_enhancers_ensembl/test/*.csv.gz

配置名称：human_enhancers_cohn

训练数据路径：human_enhancers_cohn/train/*.csv.gz
测试数据路径：human_enhancers_cohn/test/*.csv.gz

配置名称：human_enhancers_ensembl

训练数据路径：human_enhancers_ensembl/train/*.csv.gz
测试数据路径：human_enhancers_ensembl/test/*.csv.gz

配置名称：human_ensembl_regulatory

训练数据路径：human_ensembl_regulatory/train/*.csv.gz
测试数据路径：human_ensembl_regulatory/test/*.csv.gz

配置名称：human_nontata_promoters

训练数据路径：human_nontata_promoters/train/*.csv.gz
测试数据路径：human_nontata_promoters/test/*.csv.gz

配置名称：human_ocr_ensembl

训练数据路径：human_ocr_ensembl/train/*.csv.gz
测试数据路径：human_ocr_ensembl/test/*.csv.gz

数据格式

每个基准测试应包含一个 metadata.yaml 文件，其中包含以下规范：

版本：基准测试的版本（0 = 开发中）
类别：基因组序列的类别，每个类别需要进一步指定：
- url：参考链接
- type：参考类型（目前仅实现 fa.gz）
- extra_processing：帮助解决标识符匹配问题的参数

主文件夹还应包含两个文件夹：train 和 test。这两个文件夹应包含每个类别的压缩 CSV 文件（命名为 class_name.csv.gz）。

压缩 CSV 文件的格式与 BED 格式非常相似，列名必须如下：

id：序列的标识符
region：与参考匹配的染色体/转录本/...
start，end：基因组间隔规范（0 基，即与 Python 相同）
strand：+ 或 -

命名约定

dummy_...：用于测试目的的小数据集
demo_...：中等大小的数据集，不一定具有生物学相关性或完全可重现，用于演示

版本控制

建议在使用数据集时检查版本号（即不使用默认的 None）。数据集提出时版本应设置为 0，初始校正后应更改为 1，然后每次修改后增加。

搜集汇总

数据集介绍

构建方式

在基因组学领域，构建高质量的分类基准数据集对于推进机器学习模型的发展至关重要。Genomic Benchmarks数据集通过系统化的流程整合了多个子数据集，每个子集均遵循严格的构建规范。其核心方法涉及从公开的生物数据库（如Ensembl）获取原始序列数据，并依据生物学功能（如增强子、启动子）进行类别标注。数据以gzip压缩的CSV格式存储，结构上模拟BED格式，包含序列ID、染色体区域、起始与终止位置以及链方向等关键字段。每个子数据集均配备详细的元数据文件（metadata.yaml），明确版本号、类别定义及数据来源，确保构建过程的可追溯性与可重复性。

特点

该数据集在基因组序列分类任务中展现出鲜明的专业特性。其涵盖多个精心设计的子任务，例如编码序列与非编码序列的区分、人类与线虫基因的鉴别，以及果蝇和小鼠增强子的识别等，全面覆盖了基因组功能元件的多样性。数据集采用标准化的训练集与测试集划分，便于模型评估与比较。部分子集标注为“dummy”或“demo”，分别用于算法测试与演示目的，兼顾了研究效率与生物相关性。整体设计强调版本控制与结构化存储，为机器学习在基因组学中的应用提供了可靠且灵活的基准平台。

使用方法

使用该数据集时，研究者可通过其配套的Python工具包便捷地加载与处理数据。数据集以模块化形式组织，用户可根据具体任务选择相应的配置（config），直接调用数据加载函数读取压缩的CSV文件。序列信息可进一步与参考基因组比对，以提取实际的核苷酸序列进行模型训练。该工具包还提供了训练神经网络模型的辅助功能，支持端到端的分类流程。为确保结果的可复现性，建议在代码中明确指定数据集版本号。数据集遵循Apache 2.0许可，鼓励学术引用，并开放社区贡献新数据，持续扩展其应用范围。

背景与挑战

背景概述

基因组学领域正经历着数据驱动的深刻变革，序列分类作为解码生命信息的基础任务，其研究范式的演进亟需标准化评估工具。2022年，由Katarina Gresová等研究人员在bioRxiv上发布的Genomic Benchmarks数据集，应运而生。该数据集汇集了多个精心设计的基因组序列分类基准任务，涵盖编码序列与非编码序列区分、物种来源鉴定以及增强子识别等核心问题。其构建得到了ML-Bioinfo-CEITEC等机构的支持，旨在为机器学习模型在基因组学中的应用提供统一、可靠的性能测试平台，推动了计算生物学与人工智能的交叉融合，为后续研究设立了重要的参考基准。

当前挑战

该数据集致力于解决基因组序列功能分类这一核心领域问题，其首要挑战在于如何精准建模序列中高度复杂且微弱的调控信号，这些信号往往隐藏在冗长的核苷酸背景中，对模型的判别能力提出极高要求。在构建过程中，挑战同样显著：数据来源的多样性与注释质量的不均一性，要求构建者进行繁琐的整合与严格的质控；同时，为确保生物学意义的真实性并避免数据泄露，如何科学地划分训练集与测试集，尤其是处理基因组序列间的同源性与依赖性，构成了另一项关键的技术难题。

常用场景

经典使用场景

在基因组学领域，序列分类是理解基因功能与调控机制的基础。Genomic Benchmarks数据集通过提供多个标准化的分类任务，如编码序列与非编码序列的区分、人类与线虫基因组的鉴别，以及增强子序列的识别，为机器学习模型在基因组序列分析中的性能评估提供了统一平台。该数据集常被用于训练和验证深度学习模型，特别是卷积神经网络和循环神经网络，以探索序列模式与生物学功能之间的关联。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其增强子分类任务，研究者开发了注意力机制模型以解释序列中的关键调控模式；在跨物种序列鉴别方面，出现了迁移学习框架，提升模型在稀缺数据上的泛化能力。这些工作不仅推动了基因组深度学习模型的架构创新，还促进了可解释性人工智能在生物学中的应用，形成了一系列开源工具与基准测试标准。

数据集最近研究