bigbio/genia_term_corpus|生物信息学数据集|文本挖掘数据集

hugging_face2022-12-22 更新2024-03-04 收录

生物信息学

文本挖掘

下载链接：

https://hf-mirror.com/datasets/bigbio/genia_term_corpus

下载链接

链接失效反馈

资源简介：

GENIA术语语料库的识别涉及分子生物学中感兴趣的实体，如蛋白质、基因和细胞，是生物分子文本挖掘中的一项基本任务。GENIA技术术语注释涵盖了物理生物实体以及其他重要术语的识别。该语料库注释涵盖了GENIA主要语料库的1999篇摘要。

提供机构：

bigbio

原始信息汇总

GENIA Term Corpus 数据集概述

基本信息

语言: 英语
许可证: GENIA_PROJECT_LICENSE
多语言性: 单语种
数据集名称: GENIA Term Corpus
主页: GENIA Term Corpus

数据集描述

可用性: 公开
任务: 命名实体识别 (NER)
内容: 包含对分子生物学中感兴趣的实体（如蛋白质、基因和细胞）的识别。数据集覆盖了原始GENIA语料库的1,999篇摘要。

引用信息

引用文献1: Ohta, T., Tateisi, Y., & Kim, J.-D. (2002). The GENIA Corpus: An Annotated Research Abstract Corpus in Molecular Biology Domain. Proceedings of the Second International Conference on Human Language Technology Research, 82–86.
引用文献2: Kim, J.-D., Ohta, T., Tateisi, Y., & Tsujii, J. (2003). GENIA corpus - a semantically annotated corpus for bio-textmining. Bioinformatics, 19 Suppl 1, i180-2.
引用文献3: Kim, J.-D., Ohta, T., Tsuruoka, Y., Tateisi, Y., & Collier, N. (2004). Introduction to the Bio-Entity Recognition Task at JNLPBA. Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications, 70–75.

AI搜集汇总

数据集介绍

构建方式

GENIA Term Corpus的构建基于分子生物学领域的研究摘要，涵盖了1999篇摘要的全面标注。该数据集通过人工标注的方式，识别并标注了蛋白质、基因和细胞等生物实体及其相关术语。标注过程严格遵循分子生物学领域的专业标准，确保了数据的高质量和准确性。

特点

GENIA Term Corpus以其在生物医学文本挖掘中的广泛应用而著称，特别适用于命名实体识别（NER）任务。数据集不仅包含了丰富的生物实体标注，还涵盖了分子生物学领域的关键术语，为研究者提供了详尽的语义信息。其单语种（英语）特性使得数据集的适用性更加集中，便于在特定领域内进行深入分析。

使用方法

GENIA Term Corpus主要用于生物医学文本挖掘中的命名实体识别任务。研究者可以通过该数据集训练和评估NER模型，识别文本中的生物实体和术语。数据集的使用方法包括数据加载、预处理、模型训练和性能评估等步骤。通过结合先进的自然语言处理技术，研究者可以充分利用该数据集进行生物医学文本的自动化分析。

背景与挑战

背景概述

GENIA Term Corpus是由日本国立信息学研究所（NII）的研究团队于2002年创建的一个专门用于生物医学文本挖掘的语料库。该语料库由Tomoko Ohta、Yuka Tateisi和Jin-Dong Kim等研究人员主导开发，旨在为分子生物学领域的命名实体识别（NER）任务提供高质量的标注数据。GENIA Term Corpus包含了1999篇分子生物学领域的摘要，涵盖了蛋白质、基因和细胞等生物实体的标注信息。该语料库的发布极大地推动了生物医学文本挖掘领域的发展，尤其是在生物实体识别任务中，成为该领域的重要基准数据集之一。

当前挑战

GENIA Term Corpus在解决生物医学文本挖掘中的命名实体识别问题时，面临的主要挑战包括生物实体名称的多样性和复杂性。生物实体名称通常具有高度的变异性，同一实体可能以多种形式出现在不同文献中，这增加了识别的难度。此外，构建该语料库的过程中，研究人员需要处理大量非结构化的生物医学文本，并确保标注的一致性和准确性。由于生物医学领域的术语更新迅速，语料库的维护和扩展也成为一个持续的挑战。这些挑战不仅影响了数据集的构建过程，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

GENIA Term Corpus 数据集在生物医学文本挖掘领域中被广泛用于命名实体识别（NER）任务。该数据集包含了1999篇分子生物学领域的摘要，标注了蛋白质、基因和细胞等生物实体，为研究者提供了一个标准化的语料库，用于开发和评估生物医学文本挖掘算法。

解决学术问题

GENIA Term Corpus 解决了生物医学文本挖掘中实体识别的关键问题。通过提供高质量的标注数据，研究者能够训练和验证NER模型，从而更准确地从大量生物医学文献中提取关键信息。这不仅推动了生物信息学的发展，还为药物发现和基因组学研究提供了重要支持。

衍生相关工作

基于GENIA Term Corpus，许多经典的研究工作得以展开。例如，Jin-Dong Kim等人利用该数据集开发了先进的生物实体识别算法，并在JNLPBA任务中取得了显著成果。此外，该数据集还催生了一系列生物医学文本挖掘工具和系统，如BioNER和BioBERT，进一步推动了该领域的技术进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

IMDb Datasets

IMDb Datasets包含电影和电视节目的详细信息，包括电影名称、演员、导演、评分、评论等。数据集分为多个文件，如title.basics.tsv.gz、title.ratings.tsv.gz等，每个文件包含不同类型的信息。

www.imdb.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录