DFKI-SLT/GDA
收藏Hugging Face2024-06-22 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/GDA
下载链接
链接失效反馈资源简介:
GDA数据集是一个用于基因与疾病关联提取的句子级评估数据集,由Nourani和Reshadata(2020)开发。该数据集基于DisGeNET和PubTator数据库构建,包含8000个句子,涉及1904种疾病和3635个基因。数据集分为训练集、验证集和测试集,每个实例包含多个字段,如基因ID、疾病名称、关联类型等。数据集的构建过程包括从PubMed摘要中提取相关句子,并通过系统过滤确保高质量的非关联样本。
The GDA dataset is a sentence-level evaluation dataset for extracting associations between genes and diseases, developed by Nourani and Reshadata (2020). It is constructed based on the DisGeNET and PubTator databases, containing 8000 sentences involving 1904 diseases and 3635 genes. The dataset is divided into training, validation, and test sets, with each instance containing multiple fields such as gene ID, disease name, association type, etc. The dataset construction process involves extracting relevant sentences from PubMed abstracts and using a systematic filtering process to ensure high-quality non-associated samples.
提供机构:
DFKI-SLT
原始信息汇总
GDA 数据集概述
数据集描述
数据集摘要
GDA 数据集是由 Nourani 和 Reshadata (2020) 开发的,用于从生物医学文献中提取基因与疾病之间关联的句子级评估数据集。该数据集基于 DisGeNET 和 PubTator 数据库构建,包含 8000 个句子,涉及 1904 种独特疾病和 3635 种独特基因。
语言
数据集中的语言为英语。
数据集结构
数据字段
NofPmids: 与基因-疾病关联相关的 PubMed ID 数量,类型为float64。NofSnps: 与基因-疾病关联相关的单核苷酸多态性(SNPs)数量,类型为float64。associationType: 基因与疾病之间的关联类型(如 Negative, Biomarker, Therapeutic),类型为string。diseaseId: 疾病的唯一标识符,类型为string。diseaseName: 疾病名称,类型为string。diseaseType: 疾病的类型(如 disease, group, phenotype),类型为string。disease_mention: 疾病在源文本中的具体提及,类型为string。geneId: 基因的唯一标识符,类型为string。geneSymbol: 基因的符号表示,类型为string。gene_mention: 基因在源文本中的具体提及,类型为string。originalSource: 原始来源,类型为string。pmid: 与句子相关的 PubMed ID,类型为int64。raw_sentence: 源文档中的原始句子,类型为string。score: 基因与疾病之间关联的置信度或相关性得分,类型为float64。sentence: 带有跨度注释的句子,类型为string。source: 关联数据来源的数据库或存储库,类型为string。
数据分割
train: 训练集,包含 4000 个样本,大小为 1907978 字节。validation: 验证集,包含 2400 个样本,大小为 1134075 字节。test: 测试集,包含 1600 个样本,大小为 756401 字节。
引用
- Nourani, E., & Reshadat, V. (2020). Association extraction from biomedical literature based on representation and transfer learning. Journal of Theoretical Biology, 488, 110112. https://doi.org/10.1016/j.jtbi.2019.110112
AI搜集汇总
数据集介绍

构建方式
GDA数据集的构建基于DisGeNET和PubTator数据库,通过自动化的方式提取基因与疾病之间的关联信息。首先,从DisGeNET中筛选出经过验证的基因-疾病关联作为正样本。随后,利用PubTator检索包含至少一个基因和疾病名称的PubMed摘要,并通过系统化的三步过滤过程生成负样本,确保高质量的标注。这一过程包括排除已知的关联、去除语言上暗示关联的句子,最终形成了包含8000个句子的数据集,涵盖1904种独特疾病和3635种独特基因。
特点
GDA数据集的主要特点在于其高质量的标注和广泛的覆盖范围。数据集包含了详细的基因和疾病信息,如基因ID、基因符号、疾病ID和疾病名称等,这些信息为基因-疾病关联的研究提供了丰富的资源。此外,数据集还提供了原始句子及其经过标注的版本,便于进行关系抽取和分类任务。数据集的结构化设计使其适用于多种生物医学文本挖掘任务,如关系分类和关系抽取。
使用方法
GDA数据集适用于基因-疾病关联的提取和分类任务。用户可以通过加载数据集的训练、验证和测试分割来进行模型训练和评估。数据集提供了丰富的字段信息,如基因和疾病的标识符、关联类型、原始句子及其标注版本等,这些信息可以用于构建和评估关系抽取模型。此外,数据集的结构化设计使其易于集成到现有的生物医学文本挖掘框架中,支持多种自然语言处理任务的研究和应用。
背景与挑战
背景概述
在生物医学领域,基因与疾病之间的关联研究一直是核心课题之一。DFKI-SLT/GDA数据集由Nourani和Reshadat于2020年开发,旨在通过提取生物医学文献中的基因与疾病关联信息,为相关研究提供支持。该数据集基于DisGeNET和PubTator等数据库,自动构建了包含8000个句子的语料库,涵盖1904种独特疾病和3635种基因。其核心研究问题在于如何高效且准确地从海量文献中提取基因与疾病的关联,这对于加速生物医学研究具有重要意义。
当前挑战
GDA数据集在构建过程中面临多项挑战。首先,如何从庞大的生物医学文献中筛选出有效的基因与疾病关联信息,确保数据的高质量与准确性,是一个主要难题。其次,数据集的构建需排除已知关联,并通过语言过滤确保非关联样本的可靠性,这增加了数据处理的复杂性。此外,基因与疾病关联的多样性及文献语境的复杂性,使得关联提取任务充满挑战。这些挑战不仅影响数据集的质量,也对后续的模型训练与应用提出了高要求。
常用场景
经典使用场景
在生物医学领域,GDA数据集被广泛用于基因与疾病关联的提取任务。通过分析PubMed摘要中的句子,该数据集能够识别和分类基因与疾病之间的关联类型,如生物标志物、治疗相关等。这一经典应用场景为研究人员提供了一个标准化的评估平台,以验证和改进基因-疾病关联提取算法。
实际应用
在实际应用中,GDA数据集被用于开发和优化基因-疾病关联提取系统,这些系统广泛应用于生物医学研究和临床实践中。例如,制药公司可以利用这些系统快速筛选潜在的药物靶点,而临床医生则可以通过分析患者的基因信息,提供更精准的诊断和治疗方案。此外,该数据集还支持生物医学数据库的构建和更新,确保数据的及时性和准确性。
衍生相关工作
基于GDA数据集,许多相关研究工作得以展开。例如,研究人员开发了基于注意力机制和BioBERT的深度学习模型,以提高基因-疾病关联提取的准确性。此外,该数据集还促进了跨学科的合作,如计算机科学与生物医学的结合,推动了新一代生物信息学工具的研发。这些衍生工作不仅丰富了基因-疾病关联研究的理论基础,还为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成



