bigbio/genia_term_corpus

Name: bigbio/genia_term_corpus
Creator: bigbio
Published: 2022-12-22 15:44:41
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/genia_term_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

GENIA术语语料库的识别涉及分子生物学中感兴趣的实体，如蛋白质、基因和细胞，是生物分子文本挖掘中的一项基本任务。GENIA技术术语注释涵盖了物理生物实体以及其他重要术语的识别。该语料库注释涵盖了GENIA主要语料库的1999篇摘要。

Recognizing entities of interest in molecular biology, such as proteins, genes and cells, from the GENIA terminology corpus is a fundamental task in biomolecular text mining. GENIA technical term annotation covers the identification of physical biological entities as well as other important terminology. This corpus's annotation includes 1999 abstracts from the core GENIA corpus.

提供机构：

bigbio

原始信息汇总

GENIA Term Corpus 数据集概述

基本信息

语言: 英语
许可证: GENIA_PROJECT_LICENSE
多语言性: 单语种
数据集名称: GENIA Term Corpus
主页: GENIA Term Corpus

数据集描述

可用性: 公开
任务: 命名实体识别 (NER)
内容: 包含对分子生物学中感兴趣的实体（如蛋白质、基因和细胞）的识别。数据集覆盖了原始GENIA语料库的1,999篇摘要。

引用信息

引用文献1: Ohta, T., Tateisi, Y., & Kim, J.-D. (2002). The GENIA Corpus: An Annotated Research Abstract Corpus in Molecular Biology Domain. Proceedings of the Second International Conference on Human Language Technology Research, 82–86.
引用文献2: Kim, J.-D., Ohta, T., Tateisi, Y., & Tsujii, J. (2003). GENIA corpus - a semantically annotated corpus for bio-textmining. Bioinformatics, 19 Suppl 1, i180-2.
引用文献3: Kim, J.-D., Ohta, T., Tsuruoka, Y., Tateisi, Y., & Collier, N. (2004). Introduction to the Bio-Entity Recognition Task at JNLPBA. Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications, 70–75.

搜集汇总

数据集介绍

构建方式

GENIA Term Corpus的构建基于分子生物学领域的研究摘要，涵盖了1999篇摘要的全面标注。该数据集通过人工标注的方式，识别并标注了蛋白质、基因和细胞等生物实体及其相关术语。标注过程严格遵循分子生物学领域的专业标准，确保了数据的高质量和准确性。

特点

GENIA Term Corpus以其在生物医学文本挖掘中的广泛应用而著称，特别适用于命名实体识别（NER）任务。数据集不仅包含了丰富的生物实体标注，还涵盖了分子生物学领域的关键术语，为研究者提供了详尽的语义信息。其单语种（英语）特性使得数据集的适用性更加集中，便于在特定领域内进行深入分析。

使用方法

GENIA Term Corpus主要用于生物医学文本挖掘中的命名实体识别任务。研究者可以通过该数据集训练和评估NER模型，识别文本中的生物实体和术语。数据集的使用方法包括数据加载、预处理、模型训练和性能评估等步骤。通过结合先进的自然语言处理技术，研究者可以充分利用该数据集进行生物医学文本的自动化分析。

背景与挑战

背景概述

GENIA Term Corpus是由日本国立信息学研究所（NII）的研究团队于2002年创建的一个专门用于生物医学文本挖掘的语料库。该语料库由Tomoko Ohta、Yuka Tateisi和Jin-Dong Kim等研究人员主导开发，旨在为分子生物学领域的命名实体识别（NER）任务提供高质量的标注数据。GENIA Term Corpus包含了1999篇分子生物学领域的摘要，涵盖了蛋白质、基因和细胞等生物实体的标注信息。该语料库的发布极大地推动了生物医学文本挖掘领域的发展，尤其是在生物实体识别任务中，成为该领域的重要基准数据集之一。

当前挑战

GENIA Term Corpus在解决生物医学文本挖掘中的命名实体识别问题时，面临的主要挑战包括生物实体名称的多样性和复杂性。生物实体名称通常具有高度的变异性，同一实体可能以多种形式出现在不同文献中，这增加了识别的难度。此外，构建该语料库的过程中，研究人员需要处理大量非结构化的生物医学文本，并确保标注的一致性和准确性。由于生物医学领域的术语更新迅速，语料库的维护和扩展也成为一个持续的挑战。这些挑战不仅影响了数据集的构建过程，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

GENIA Term Corpus 数据集在生物医学文本挖掘领域中被广泛用于命名实体识别（NER）任务。该数据集包含了1999篇分子生物学领域的摘要，标注了蛋白质、基因和细胞等生物实体，为研究者提供了一个标准化的语料库，用于开发和评估生物医学文本挖掘算法。

解决学术问题

GENIA Term Corpus 解决了生物医学文本挖掘中实体识别的关键问题。通过提供高质量的标注数据，研究者能够训练和验证NER模型，从而更准确地从大量生物医学文献中提取关键信息。这不仅推动了生物信息学的发展，还为药物发现和基因组学研究提供了重要支持。

衍生相关工作

基于GENIA Term Corpus，许多经典的研究工作得以展开。例如，Jin-Dong Kim等人利用该数据集开发了先进的生物实体识别算法，并在JNLPBA任务中取得了显著成果。此外，该数据集还催生了一系列生物医学文本挖掘工具和系统，如BioNER和BioBERT，进一步推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集