spyysalo/species_800

Name: spyysalo/species_800
Creator: spyysalo
Published: 2023-06-16 11:33:29
License: 暂无描述

Hugging Face2023-06-16 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/spyysalo/species_800

下载链接

链接失效反馈

官方服务：

资源简介：

S800语料库：一个基于摘要的手动注释语料库。S800包含800篇PubMed摘要，其中识别了生物体提及并将其映射到相应的NCBI分类标识符。为了增加语料库的分类提及多样性，S800摘要通过从以下8个类别中各选择100篇摘要进行收集：细菌学、植物学、昆虫学、医学、真菌学、原生生物学、病毒学和动物学。S800的注释主要集中在物种级别，但也考虑了更高级别的分类提及（如属、科和目）。Species-800数据集基于Pyysalo的数据集进行了预处理和分割。

提供机构：

spyysalo

原始信息汇总

数据集概述

数据集名称

名称: species800
配置名称: species_800

数据集描述

摘要: S800 Corpus是一个基于PubMed摘要的手动标注数据集，包含800篇摘要，其中生物体提及被识别并映射到相应的NCBI Taxonomy标识符。数据集通过从8个类别中各选取100篇摘要来增加分类提及的多样性。
语言: 英语 (en)
许可证: 未知
多语言性: 单语
大小类别: 1K<n<10K
源数据集: 原始数据
任务类别: 词元分类
任务ID: 命名实体识别

数据集结构

特征:
- id: 字符串类型，句子标识符
- tokens: 字符串序列，构成句子的词元数组
- ner_tags: 类标签的序列，其中0表示未提及物种，1表示物种的第一个词元，2表示物种的后续词元
分割:
- train: 5734个样本，2579096字节
- validation: 831个样本，385756字节
- test: 1631个样本，737760字节
下载大小: 18204624字节
数据集大小: 3702612字节

数据集创建

许可证信息: 物种级别的S800语料库受Medline限制
引用信息:
- 原始数据引用: Pafilis et al., 2013
- 源数据引用: Lee et al., 2019 和 Pyysalo, s800
贡献者: @edugp

搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，物种名称的识别是信息抽取的关键环节。Species-800数据集基于800篇PubMed摘要构建，这些摘要经过精心筛选，覆盖了细菌学、植物学、昆虫学、医学、真菌学、原生生物学、病毒学和动物学等八个学科类别，每个类别选取100篇，以确保物种提及的多样性。专家团队对摘要中的生物体名称进行了人工标注，并将其映射至NCBI分类学标识符，标注重点聚焦于物种层面，同时兼顾了属、科、目等更高阶的分类单元。数据预处理与划分参考了Pyysalo的S800项目，形成了包含训练、验证和测试三个标准分割的结构化语料库。

特点

该数据集在生物医学自然语言处理中展现出鲜明的专业特性。其标注体系采用经典的BIO（Begin, Inside, Outside）序列标注格式，清晰地区分了物种实体的起始与内部词汇。语料规模适中，包含超过八千个标注实例，为模型训练提供了充足的数据支持。内容上，它跨越了多个生物学子领域，有效避免了因领域单一可能导致的模型偏差，提升了识别系统在广泛生物医学文本中的泛化能力。数据以句子为单位组织，每个样本包含标识符、词汇序列及对应的命名实体标签，结构清晰，便于直接应用于序列标注任务。

使用方法

对于旨在开发或评估生物医学命名实体识别模型的研究者而言，该数据集提供了标准化的实践路径。用户可通过Hugging Face数据集库直接加载，并利用其预设的训练、验证和测试分割进行模型开发与评估。典型的工作流程包括：使用预训练的生物医学语言模型（如BioBERT）进行微调，以学习物种名称的上下文表示；随后，在验证集上调整超参数，最终在独立的测试集上评估模型性能，衡量指标通常包括精确率、召回率和F1分数。该数据集可直接服务于物种实体识别任务，其输出格式也易于集成到更复杂的生物医学关系抽取或知识图谱构建流程之中。

背景与挑战

背景概述

物种命名实体识别在生物医学文本挖掘中扮演着关键角色，旨在从科学文献中自动提取并标准化生物分类学名称。S800语料库由Lars Juhl Jensen团队于2013年创建，其核心研究问题聚焦于提升物种提及的多样性与标注精度。该数据集涵盖八个生物学子领域，包括细菌学、植物学及病毒学等，通过专家手动标注将物种名称映射至NCBI分类学标识符，为后续生物医学自然语言处理模型如BioBERT提供了重要训练资源，显著推动了领域内实体识别技术的发展。

当前挑战

物种命名实体识别面临领域特有的挑战，生物分类学名称常呈现复杂的形态变异与缩写形式，且同一物种可能对应多个同义词，增加了准确归一化的难度。在构建过程中，确保标注一致性与覆盖广度成为关键难题，需平衡不同子领域样本的代表性，同时处理专业术语的歧义性。此外，数据来源于受限制的Medline摘要，在合规使用与标注质量控制方面亦存在实际约束。

常用场景

经典使用场景

在生物医学文本挖掘领域，物种命名实体识别是基础且关键的任务。spyysalo/species_800数据集作为S800语料库的衍生版本，其经典使用场景聚焦于训练和评估命名实体识别模型，专门用于从PubMed生物医学文献摘要中精准识别并标注物种名称。该数据集覆盖了细菌学、植物学、昆虫学、医学、真菌学、原生生物学、病毒学和动物学等八个学科类别，确保了物种提及的多样性，为模型提供了跨领域的泛化能力测试环境。

衍生相关工作

围绕species_800及其前身S800语料库，衍生了一系列生物医学自然语言处理的经典工作。最具代表性的是BioBERT，该预训练语言模型在包括S800在内的多个生物医学NER数据集上进行了微调与评估，显著提升了物种等生物医学实体的识别性能。此外，该数据集常被用作基准，用于比较不同神经网络架构（如BiLSTM-CRF、Transformer变体）在生物医学NER任务上的优劣，推动了领域内模型优化与评估标准的发展。

数据集最近研究