vladimire/geneturing
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/vladimire/geneturing
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
dataset_info:
- config_name: all
- config_name: gene_alias
- config_name: gene_disease_association
- config_name: gene_location
- config_name: gene_name_conversion
- config_name: gene_name_extraction
- config_name: gene_ontology
- config_name: gene_SNP_association
- config_name: human_genome_DNA_aligment
- config_name: multi-species_DNA_aligment
- config_name: protein-coding_genes
- config_name: SNP_location
- config_name: TF_regulation
configs:
- config_name: all
data_files:
- split: test
path: "all/geneturing.csv"
- config_name: gene_alias
data_files:
- split: test
path: "gene_alias/test_*"
- config_name: gene_disease_association
data_files:
- split: test
path: "gene_disease_association/test_*"
- config_name: gene_location
data_files:
- split: test
path: "gene_location/test_*"
- config_name: gene_name_conversion
data_files:
- split: test
path: "gene_name_conversion/test_*"
- config_name: gene_name_extraction
data_files:
- split: test
path: "gene_name_extraction/test_*"
- config_name: gene_ontology
data_files:
- split: test
path: "gene_ontology/test_*"
- config_name: gene_SNP_association
data_files:
- split: test
path: "gene_SNP_association/test_*"
- config_name: human_genome_DNA_aligment
data_files:
- split: test
path: "human_genome_DNA_aligment/test_*"
- config_name: multi-species_DNA_aligment
data_files:
- split: test
path: "multi-species_DNA_aligment/test_*"
- config_name: protein-coding_genes
data_files:
- split: test
path: "protein-coding_genes/test_*"
- config_name: SNP_location
data_files:
- split: test
path: "SNP_location/test_*"
- config_name: TF_regulation
data_files:
- split: test
path: "TF_regulation/test_*"
---
This dataset includes multiple subsets related to genes, covering gene aliases, gene-disease associations, gene locations, gene name conversions, gene name extraction, gene ontology, gene-SNP associations, human genome DNA alignment, multi-species DNA alignment, protein-coding genes, SNP locations, and transcription factor regulation. Each subset provides test set data files.
提供机构:
vladimire
原始信息汇总
数据集概述
数据集配置
- config_name: all
- config_name: gene_alias
- config_name: gene_disease_association
- config_name: gene_location
- config_name: gene_name_conversion
- config_name: gene_name_extraction
- config_name: gene_ontology
- config_name: gene_SNP_association
- config_name: human_genome_DNA_aligment
- config_name: multi-species_DNA_aligment
- config_name: protein-coding_genes
- config_name: SNP_location
- config_name: TF_regulation
数据文件信息
-
config_name: all
- split: test
- path: "all/geneturing.csv"
-
config_name: gene_alias
- split: test
- path: "gene_alias/test_*"
-
config_name: gene_disease_association
- split: test
- path: "gene_disease_association/test_*"
-
config_name: gene_location
- split: test
- path: "gene_location/test_*"
-
config_name: gene_name_conversion
- split: test
- path: "gene_name_conversion/test_*"
-
config_name: gene_name_extraction
- split: test
- path: "gene_name_extraction/test_*"
-
config_name: gene_ontology
- split: test
- path: "gene_ontology/test_*"
-
config_name: gene_SNP_association
- split: test
- path: "gene_SNP_association/test_*"
-
config_name: human_genome_DNA_aligment
- split: test
- path: "human_genome_DNA_aligment/test_*"
-
config_name: multi-species_DNA_aligment
- split: test
- path: "multi-species_DNA_aligment/test_*"
-
config_name: protein-coding_genes
- split: test
- path: "protein-coding_genes/test_*"
-
config_name: SNP_location
- split: test
- path: "SNP_location/test_*"
-
config_name: TF_regulation
- split: test
- path: "TF_regulation/test_*"
搜集汇总
数据集介绍

构建方式
在基因组学与生物信息学领域,数据整合与标准化是推动研究进展的关键。Geneturing数据集的构建采用了模块化设计理念,将复杂的基因相关任务分解为13个独立配置,涵盖基因别名、基因疾病关联、基因定位、基因本体论等多个子领域。每个配置均以测试集形式呈现,数据文件通过标准化路径组织,确保了数据结构的一致性与可扩展性。这种构建方式不仅便于研究者按需调用特定子集,也为后续数据更新与补充提供了灵活框架。
特点
Geneturing数据集展现了多维度基因信息的集成特性,其核心优势在于覆盖范围的广泛性与任务导向的专门化。从基因名称提取与转换到跨物种DNA比对,从转录因子调控到单核苷酸多态性定位,该数据集几乎囊括了基因功能解析的各个关键环节。各子集之间既相互独立又存在内在关联,形成了层次分明的知识网络,为复杂生物过程的系统性研究提供了结构化数据支撑。
使用方法
针对基因组学领域的模型开发与评估需求,Geneturing数据集提供了高度可配置的使用方案。研究者可通过指定配置名称直接加载特定子集,例如gene_disease_association或TF_regulation,实现精准的任务适配。数据集采用标准化的文件分割方式,所有子集均提供测试分割,便于模型性能的基准测试。这种设计既支持端到端的多任务学习,也允许针对单一生物信息学任务进行深度优化,为基因智能分析工具的迭代升级奠定了数据基础。
背景与挑战
背景概述
在基因组学与生物信息学领域,大规模、高质量的数据集对于推动基因功能解析、疾病关联研究及跨物种比较至关重要。Geneturing数据集由vladimire团队构建,其核心研究问题聚焦于整合多维度基因相关信息,涵盖基因别名、基因-疾病关联、基因定位、基因本体论、单核苷酸多态性(SNP)关联、DNA序列比对以及转录因子调控等十余个专项任务。该数据集的创建旨在为自然语言处理与机器学习模型提供结构化基准,以支持基因语义理解、知识图谱构建及生物医学问答系统的开发,对精准医疗和基础生物学研究具有显著影响力。
当前挑战
Geneturing数据集所解决的领域问题涉及基因信息的多任务集成与语义解析,其挑战在于如何统一处理高度异构的基因数据类型,例如从非结构化文本中准确提取基因名称、标准化基因别名映射,以及验证基因-疾病关联的可靠性。构建过程中的挑战包括数据源的整合与清洗,需协调来自不同数据库(如NCBI、Ensembl)的格式差异;同时,确保DNA序列比对数据的多物种一致性,并处理大规模SNP位置标注中的噪声,这对数据质量控制提出了较高要求。
常用场景
经典使用场景
在基因组学与生物信息学领域,Geneturing数据集以其多维度基因信息整合特性,成为评估自然语言处理模型在生物医学文本理解任务中的经典基准。该数据集通过涵盖基因别名识别、基因疾病关联、基因本体注释等多样化子任务,模拟了真实科研场景中从非结构化文献提取结构化知识的复杂流程,为模型在专业术语消歧、跨物种序列比对及调控网络推断等核心挑战上提供了标准化测试平台。
衍生相关工作
以该数据集为基石衍生的经典工作包括基于注意力机制的基因关系联合抽取框架GeneBERT,其通过融合基因本体与SNP位置信息实现了跨模态生物实体链接。后续研究进一步拓展出动态记忆网络架构BioMem,在基因疾病关联预测任务中引入时空演化建模,而近期提出的HierGNN模型则利用该数据集的调控网络数据构建层级图神经网络,显著提升了非编码区变异功能注释的准确性。
数据集最近研究
最新研究方向
在基因组学与生物信息学领域,Geneturing数据集凭借其涵盖基因别名、基因疾病关联、基因定位、基因本体论及转录因子调控等多维配置,为前沿研究提供了关键支撑。当前研究聚焦于利用该数据集训练大型语言模型,以解析复杂基因-表型关联,并推动多物种DNA比对与蛋白质编码基因的功能注释。这些探索正助力精准医疗的发展,尤其在遗传病机制解析和个性化治疗策略制定方面展现出深远影响,标志着生物医学人工智能向更深层次的知识整合迈进。
以上内容由遇见数据集搜集并总结生成



