cambridgeltl/linnaeus

Name: cambridgeltl/linnaeus
Creator: cambridgeltl
Published: 2023-06-15 14:40:39
License: 暂无描述

Hugging Face2023-06-15 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/cambridgeltl/linnaeus

下载链接

链接失效反馈

官方服务：

资源简介：

LINNAEUS数据集是一个用于物种命名实体识别（Named Entity Recognition, NER）的英文语料库。该数据集包含100篇从PMCOA文档集中随机选取的全文文档，所有物种术语的提及都被手动标注并归一化为NCBI分类ID。数据集被转换为BioNLP共享任务的格式，并进一步分割为训练集、验证集和测试集，最终转换为CoNLL格式。数据集的标注由专家生成，包含非ASCII字符，这些字符被映射为ASCII字符。数据集的特征包括句子标识符（id）、组成句子的词元数组（tokens）和标注数组（ner_tags），其中标注数组用于标识物种名称的开始和后续部分。数据集的大小在10K到100K之间，包含训练集11936个样本，验证集4079个样本，测试集7143个样本。

提供机构：

cambridgeltl

原始信息汇总

数据集概述

名称: LINNAEUS
语言: 英语
许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
多语言性: 单语种
大小: 10K<n<100K
源数据集: 原始数据
任务类别: 词元分类
任务ID: 命名实体识别
数据集信息:
- 特征:
  - id: 字符串类型，句子标识符
  - tokens: 字符串序列，构成句子的词元数组
  - ner_tags: 标签序列，其中0表示未提及物种，1表示物种的第一个词元，2表示物种的后续词元
- 配置名称: linnaeus
- 数据分割:
  - 训练集: 11936个样本，4772417字节
  - 验证集: 4079个样本，1592823字节
  - 测试集: 7143个样本，2802877字节
- 下载大小: 18204624字节
- 数据集大小: 9168117字节

数据集描述

摘要: LINNAEUS语料库包含从PMCOA文档集中随机选择的100篇全文文档。所有物种术语均由专家手动标注，并规范化到NCBI分类法ID。
支持的任务: 物种命名实体识别

数据集结构

数据实例: 示例数据包含句子标识符、词元数组和命名实体标签数组。
数据字段:
- id: 句子标识符
- tokens: 构成句子的词元数组
- ner_tags: 标签数组，用于标识物种提及

数据集创建

许可证信息: 本数据集版本根据Creative Commons Attribution 4.0 International许可证授权。
引用信息: bibtex @article{crichton2017neural, title={A neural network multi-task learning approach to biomedical named entity recognition}, author={Crichton, Gamal and Pyysalo, Sampo and Chiu, Billy and Korhonen, Anna}, journal={BMC Bioinformatics}, volume={18}, number={1}, pages={368}, year={2017}, publisher={BioMed Central} doi = {10.1186/s12859-017-1776-8}, issn = {1471-2105}, url = {https://doi.org/10.1186/s12859-017-1776-8}, } @article{Gerner2010, author = {Gerner, Martin and Nenadic, Goran and Bergman, Casey M}, doi = {10.1186/1471-2105-11-85}, issn = {1471-2105}, journal = {BMC Bioinformatics}, number = {1}, pages = {85}, title = {{LINNAEUS: A species name identification system for biomedical literature}}, url = {https://doi.org/10.1186/1471-2105-11-85}, volume = {11}, year = {2010} }

搜集汇总

数据集介绍

构建方式

在生物医学文献信息抽取领域，物种命名实体识别是基础且关键的任务。LINNAEUS数据集的构建始于从PMCOA文档集中随机抽取一百篇全文文献，由专家对其中所有物种术语进行人工标注，并将其规范映射至NCBI分类学标识符。原始语料以TAB分隔的独立标注格式存在，未预设数据划分。后续处理中，研究团队通过定制脚本将其转换为BioNLP共享任务格式，并依据文档数量划分为训练集、验证集和测试集，最终转化为广泛使用的CoNLL格式。为确保字符兼容性，非ASCII字符被映射为ASCII，尽管转换过程因句子分割误差导致标注数量存在微小偏差，但整体保持了极高的标注一致性。

特点

该数据集作为生物医学文本挖掘的重要资源，其显著特点在于专注于物种名称的识别。语料全部来源于真实的生物医学全文文献，包含丰富的专业术语和上下文信息，为模型提供了贴近实际应用场景的训练环境。数据以句子为单位组织，每个样本包含标识符、词汇序列以及对应的命名实体标注序列，标注体系采用经典的BIO格式，清晰界定物种实体的边界。数据集规模适中，包含超过两万个标注实例，且已预先划分为训练、验证与测试三部分，便于研究者直接用于模型开发与评估。

使用方法

该数据集主要用于训练和评估物种命名实体识别模型。使用者可通过Hugging Face数据集库直接加载，获取结构化的文本与标注信息。典型应用流程包括：利用训练集数据构建模型，学习从生物医学文本中识别如‘Saccharomyces cerevisiae’等物种名称的模式；通过验证集进行超参数调优与早期停止，以防止过拟合；最终在预留的测试集上客观评估模型的精确率、召回率等性能指标。其标准化的CoNLL格式确保了与主流自然语言处理工具链的兼容性，方便集成至现有的机器学习或深度学习框架中进行端到端的实验与分析。

背景与挑战

背景概述

在生物医学文本挖掘领域，物种名称识别是信息抽取的关键环节，对于精准解析文献中的生物学实体至关重要。LINNAEUS数据集由剑桥大学等研究机构于2010年创建，其核心研究问题聚焦于从生物医学全文中自动识别并标准化物种提及，旨在提升生物医学文献的语义解析能力。该数据集基于PMCOA文档集构建，通过专家手动标注物种术语并将其映射至NCBI分类学ID，显著推动了生物医学命名实体识别技术的发展，为后续多任务学习等先进方法提供了重要基准。

当前挑战

LINNAEUS数据集致力于解决生物医学文献中物种命名实体识别的挑战，其核心难点在于物种名称的多样性与上下文依赖性，例如同义词、缩写及复合词形式的频繁出现，增加了模型准确归一化的难度。在构建过程中，数据集面临全文本非ASCII字符的转换问题，需通过映射处理确保数据一致性；同时，句子分割错误导致实体提及数量轻微偏差，虽经优化仍存在微小标注差异，这些因素共同构成了数据质量与模型泛化能力的潜在制约。

常用场景

经典使用场景

在生物医学文本挖掘领域，物种命名实体识别是解析文献中生物信息的关键步骤。LINNAEUS数据集作为专门标注物种名称的语料库，其经典应用场景在于训练和评估命名实体识别模型，特别是针对生物医学文献中的物种术语抽取。该数据集通过人工标注的物种提及及其对应的NCBI分类学ID，为模型提供了精准的监督信号，使得研究者能够开发出高效识别酵母、细菌等微生物名称的算法，从而支撑下游的生物信息学分析。

衍生相关工作

围绕LINNAEUS数据集，衍生出多项经典的生物医学自然语言处理工作。例如，Crichton等人提出的多任务学习神经网络方法，利用该数据集与其他生物实体标注资源共同训练，显著提升了命名实体识别的泛化性能。后续研究进一步探索了迁移学习与预训练语言模型在物种识别任务上的应用，如基于BERT的架构在LINNAEUS上微调，实现了更鲁棒的实体边界检测。这些工作不仅丰富了生物文本挖掘的技术体系，也为构建集成化生物知识图谱提供了核心工具。

数据集最近研究