bigbio/gad

Name: bigbio/gad
Creator: bigbio
Published: 2022-12-22 15:25:28
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/gad

下载链接

链接失效反馈

官方服务：

资源简介：

GAD数据集是一个通过半自动注释程序识别基因与疾病之间关联的语料库，基于遗传关联数据库。数据集的原始主页已无法访问，但数据现在托管在Hugging Face Hub上以便更可靠地下载和访问。

The GAD dataset is a corpus for identifying associations between genes and diseases, developed via a semi-automated annotation pipeline and grounded in genetic association databases. The original official homepage of the dataset is no longer accessible, but the data is now hosted on the Hugging Face Hub for more reliable downloading and access.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: GAD
语言: 英语
许可证: CC-BY-4.0
多语言性: 单语种
PubMed: 可用
公开性: 公开
任务: 文本分类

描述

GAD是一个通过半自动标注程序，基于遗传关联数据库识别基因与疾病关联的语料库。

访问

主页: https://geneticassociationdb.nih.gov/
数据下载: 由Hugging Face Hub托管，提供更可靠的下载和访问。

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，遗传关联数据库（GAD）作为关键资源，其数据集的构建采用了半自动注释流程。该流程基于遗传关联数据库的原始记录，通过系统化方法识别基因与疾病之间的关联关系。具体而言，研究者从公开的生物医学文献中提取相关信息，结合自动化文本挖掘技术与人工审核相结合的方式，确保标注的准确性与一致性。数据最初源自Google Drive存储，后为保障稳定访问而迁移至HuggingFace平台，这一过程体现了数据持久化与可重复研究的科学需求。

特点

该数据集专注于文本分类任务，其核心特点在于提供了基因与疾病关联的标准化标注。数据以英文呈现，涵盖单一语言环境，符合生物医学领域通用规范。通过半自动流程生成的注释兼具效率与可靠性，支持大规模数据分析需求。数据集采用CC BY 4.0许可协议，促进开放科学协作，同时其结构化格式便于直接应用于机器学习模型训练，为转化医学研究提供高质量基础资源。

使用方法

在生物信息学应用中，该数据集可直接用于训练文本分类模型，以自动识别文献中的基因-疾病关联。使用者可通过HuggingFace平台稳定下载预处理数据，无需依赖原始失效链接。数据以标准格式组织，支持即插即用的实验流程，适用于自然语言处理任务如关系提取或生物医学实体链接。通过引用指定文献，研究者可确保学术合规性，同时利用该资源推动精准医学与药物发现领域的算法开发。

背景与挑战

背景概述

在生物医学信息学领域，基因与疾病关联的文本挖掘是推动转化医学研究的关键环节。GAD数据集由Álex Bravo等研究人员于2015年构建，依托美国国立卫生研究院的遗传关联数据库，通过半自动标注流程，系统性地从科学文献中提取基因与疾病之间的关联关系。该数据集的核心研究问题聚焦于如何从大规模文本数据中自动识别并结构化生物医学实体间的相互作用，为基因组学、药物发现及个性化医疗提供了重要的数据基础，显著促进了生物医学知识发现与计算生物学方法的发展。

当前挑战

GAD数据集旨在解决基因-疾病关联的文本分类挑战，其核心难点在于生物医学文本的复杂性与歧义性，例如基因和疾病名称的多样表述、上下文依赖的关联语义，以及文献中隐含的非直接关系识别。在构建过程中，研究人员面临标注一致性与质量控制难题，需通过半自动方法平衡自动化效率与人工审核精度；同时，原始数据源的不可达性及依赖第三方存储平台，也给数据集的长期维护与可重复访问带来了稳定性挑战。

常用场景

经典使用场景

在生物医学信息学领域，基因与疾病关联的自动识别是推动精准医学发展的关键环节。GAD数据集通过半自动标注流程，系统性地构建了基因与疾病之间的关联语料库，为文本分类任务提供了标准化资源。该数据集常被用于训练和评估机器学习模型，以从海量科学文献中自动提取基因-疾病关系，从而加速生物医学知识的发现与整合。

衍生相关工作

围绕GAD数据集，衍生了一系列经典研究工作，特别是在生物医学关系抽取和文本分类领域。例如，基于该数据集的模型被应用于BLURB基准测试，推动了基因-疾病关联提取技术的标准化评估。后续研究进一步扩展了其应用，如结合深度学习架构提升抽取精度，或将其整合到更大型的生物医学知识库中，为系统生物学和网络医学分析提供支持。

数据集最近研究