vladimire/geneturing

Name: vladimire/geneturing
Creator: vladimire
Published: 2024-05-11 18:12:02
License: 暂无描述

Hugging Face2024-05-11 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/vladimire/geneturing

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 dataset_info: - config_name: all - config_name: gene_alias - config_name: gene_disease_association - config_name: gene_location - config_name: gene_name_conversion - config_name: gene_name_extraction - config_name: gene_ontology - config_name: gene_SNP_association - config_name: human_genome_DNA_aligment - config_name: multi-species_DNA_aligment - config_name: protein-coding_genes - config_name: SNP_location - config_name: TF_regulation configs: - config_name: all data_files: - split: test path: "all/geneturing.csv" - config_name: gene_alias data_files: - split: test path: "gene_alias/test_*" - config_name: gene_disease_association data_files: - split: test path: "gene_disease_association/test_*" - config_name: gene_location data_files: - split: test path: "gene_location/test_*" - config_name: gene_name_conversion data_files: - split: test path: "gene_name_conversion/test_*" - config_name: gene_name_extraction data_files: - split: test path: "gene_name_extraction/test_*" - config_name: gene_ontology data_files: - split: test path: "gene_ontology/test_*" - config_name: gene_SNP_association data_files: - split: test path: "gene_SNP_association/test_*" - config_name: human_genome_DNA_aligment data_files: - split: test path: "human_genome_DNA_aligment/test_*" - config_name: multi-species_DNA_aligment data_files: - split: test path: "multi-species_DNA_aligment/test_*" - config_name: protein-coding_genes data_files: - split: test path: "protein-coding_genes/test_*" - config_name: SNP_location data_files: - split: test path: "SNP_location/test_*" - config_name: TF_regulation data_files: - split: test path: "TF_regulation/test_*" ---

This dataset includes multiple subsets related to genes, covering gene aliases, gene-disease associations, gene locations, gene name conversions, gene name extraction, gene ontology, gene-SNP associations, human genome DNA alignment, multi-species DNA alignment, protein-coding genes, SNP locations, and transcription factor regulation. Each subset provides test set data files.

提供机构：

vladimire

原始信息汇总

数据集概述

数据集配置

config_name: all
config_name: gene_alias
config_name: gene_disease_association
config_name: gene_location
config_name: gene_name_conversion
config_name: gene_name_extraction
config_name: gene_ontology
config_name: gene_SNP_association
config_name: human_genome_DNA_aligment
config_name: multi-species_DNA_aligment
config_name: protein-coding_genes
config_name: SNP_location
config_name: TF_regulation

数据文件信息

config_name: all
- split: test
- path: "all/geneturing.csv"
config_name: gene_alias
- split: test
- path: "gene_alias/test_*"
config_name: gene_disease_association
- split: test
- path: "gene_disease_association/test_*"
config_name: gene_location
- split: test
- path: "gene_location/test_*"
config_name: gene_name_conversion
- split: test
- path: "gene_name_conversion/test_*"
config_name: gene_name_extraction
- split: test
- path: "gene_name_extraction/test_*"
config_name: gene_ontology
- split: test
- path: "gene_ontology/test_*"
config_name: gene_SNP_association
- split: test
- path: "gene_SNP_association/test_*"
config_name: human_genome_DNA_aligment
- split: test
- path: "human_genome_DNA_aligment/test_*"
config_name: multi-species_DNA_aligment
- split: test
- path: "multi-species_DNA_aligment/test_*"
config_name: protein-coding_genes
- split: test
- path: "protein-coding_genes/test_*"
config_name: SNP_location
- split: test
- path: "SNP_location/test_*"
config_name: TF_regulation
- split: test
- path: "TF_regulation/test_*"

搜集汇总

数据集介绍

构建方式

在基因组学与生物信息学领域，数据整合与标准化是推动研究进展的关键。Geneturing数据集的构建采用了模块化设计理念，将复杂的基因相关任务分解为13个独立配置，涵盖基因别名、基因疾病关联、基因定位、基因本体论等多个子领域。每个配置均以测试集形式呈现，数据文件通过标准化路径组织，确保了数据结构的一致性与可扩展性。这种构建方式不仅便于研究者按需调用特定子集，也为后续数据更新与补充提供了灵活框架。

特点

Geneturing数据集展现了多维度基因信息的集成特性，其核心优势在于覆盖范围的广泛性与任务导向的专门化。从基因名称提取与转换到跨物种DNA比对，从转录因子调控到单核苷酸多态性定位，该数据集几乎囊括了基因功能解析的各个关键环节。各子集之间既相互独立又存在内在关联，形成了层次分明的知识网络，为复杂生物过程的系统性研究提供了结构化数据支撑。

使用方法

针对基因组学领域的模型开发与评估需求，Geneturing数据集提供了高度可配置的使用方案。研究者可通过指定配置名称直接加载特定子集，例如gene_disease_association或TF_regulation，实现精准的任务适配。数据集采用标准化的文件分割方式，所有子集均提供测试分割，便于模型性能的基准测试。这种设计既支持端到端的多任务学习，也允许针对单一生物信息学任务进行深度优化，为基因智能分析工具的迭代升级奠定了数据基础。

背景与挑战

背景概述

在基因组学与生物信息学领域，大规模、高质量的数据集对于推动基因功能解析、疾病关联研究及跨物种比较至关重要。Geneturing数据集由vladimire团队构建，其核心研究问题聚焦于整合多维度基因相关信息，涵盖基因别名、基因-疾病关联、基因定位、基因本体论、单核苷酸多态性（SNP）关联、DNA序列比对以及转录因子调控等十余个专项任务。该数据集的创建旨在为自然语言处理与机器学习模型提供结构化基准，以支持基因语义理解、知识图谱构建及生物医学问答系统的开发，对精准医疗和基础生物学研究具有显著影响力。

当前挑战

Geneturing数据集所解决的领域问题涉及基因信息的多任务集成与语义解析，其挑战在于如何统一处理高度异构的基因数据类型，例如从非结构化文本中准确提取基因名称、标准化基因别名映射，以及验证基因-疾病关联的可靠性。构建过程中的挑战包括数据源的整合与清洗，需协调来自不同数据库（如NCBI、Ensembl）的格式差异；同时，确保DNA序列比对数据的多物种一致性，并处理大规模SNP位置标注中的噪声，这对数据质量控制提出了较高要求。

常用场景

经典使用场景

在基因组学与生物信息学领域，Geneturing数据集以其多维度基因信息整合特性，成为评估自然语言处理模型在生物医学文本理解任务中的经典基准。该数据集通过涵盖基因别名识别、基因疾病关联、基因本体注释等多样化子任务，模拟了真实科研场景中从非结构化文献提取结构化知识的复杂流程，为模型在专业术语消歧、跨物种序列比对及调控网络推断等核心挑战上提供了标准化测试平台。

衍生相关工作

以该数据集为基石衍生的经典工作包括基于注意力机制的基因关系联合抽取框架GeneBERT，其通过融合基因本体与SNP位置信息实现了跨模态生物实体链接。后续研究进一步拓展出动态记忆网络架构BioMem，在基因疾病关联预测任务中引入时空演化建模，而近期提出的HierGNN模型则利用该数据集的调控网络数据构建层级图神经网络，显著提升了非编码区变异功能注释的准确性。

数据集最近研究