masaenger/anat_em

Name: masaenger/anat_em
Creator: masaenger
Published: 2023-09-01 07:06:12
License: 暂无描述

Hugging Face2023-09-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/masaenger/anat_em

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en bigbio_language: - English license: cc-by-sa-3.0 multilinguality: monolingual bigbio_license_shortname: CC_BY_SA_3p0 pretty_name: AnatEM homepage: http://nactem.ac.uk/anatomytagger/#AnatEM bigbio_pubmed: True bigbio_public: True bigbio_tasks: - NAMED_ENTITY_RECOGNITION --- # Dataset Card for AnatEM ## Dataset Description - **Homepage:** http://nactem.ac.uk/anatomytagger/#AnatEM - **Pubmed:** True - **Public:** True - **Tasks:** NER The extended Anatomical Entity Mention corpus (AnatEM) consists of 1212 documents (approx. 250,000 words) manually annotated to identify over 13,000 mentions of anatomical entities. Each annotation is assigned one of 12 granularity-based types such as Cellular component, Tissue and Organ, defined with reference to the Common Anatomy Reference Ontology. ## Citation Information ``` @article{pyysalo2014anatomical, title={Anatomical entity mention recognition at literature scale}, author={Pyysalo, Sampo and Ananiadou, Sophia}, journal={Bioinformatics}, volume={30}, number={6}, pages={868--875}, year={2014}, publisher={Oxford University Press} } ```

--- language: - 英语 bigbio_language: - 英语 license: 知识共享署名-相同方式共享3.0（CC BY-SA 3.0） multilinguality: 单语数据集 bigbio_license_shortname: CC_BY_SA_3p0 pretty_name: AnatEM homepage: http://nactem.ac.uk/anatomytagger/#AnatEM bigbio_pubmed: 是 bigbio_public: 是 bigbio_tasks: - 命名实体识别（Named Entity Recognition，简称NER） --- # AnatEM 数据集卡片 ## 数据集描述 - **官方主页**：http://nactem.ac.uk/anatomytagger/#AnatEM - **PubMed 支持**：是 - **公开可用**：是 - **任务**：命名实体识别（NER）扩展版解剖实体提及语料库（Anatomical Entity Mention corpus，简称AnatEM）包含1212份文档（约25万字），经人工标注以识别超过13000处解剖实体提及项。每一条标注均被归类至12种基于粒度的类型之一，例如细胞组分、组织与器官，这些类型的定义参考了通用解剖参考本体（Common Anatomy Reference Ontology）。 ## 引用信息 @article{pyysalo2014anatomical, title={面向文献规模的解剖实体提及识别}, author={Pyysalo, Sampo and Ananiadou, Sophia}, journal={生物信息学}, volume={30}, number={6}, pages={868--875}, year={2014}, publisher={牛津大学出版社} }

提供机构：

masaenger

原始信息汇总

数据集概述

数据集描述

名称: AnatEM
语言: 英语
许可: CC-BY-SA-3.0
多语言性: 单语种
主页: http://nactem.ac.uk/anatomytagger/#AnatEM
是否公开: 是
是否包含PubMed内容: 是
任务类型: 命名实体识别 (NER)

AnatEM 数据集包含 1212 篇文档（约 250,000 词），手动标注了超过 13,000 个解剖实体提及。每个标注被分配为 12 种基于粒度的类型之一，如细胞组分、组织和器官，这些类型参照通用解剖学参考本体定义。

引用信息

@article{pyysalo2014anatomical, title={Anatomical entity mention recognition at literature scale}, author={Pyysalo, Sampo and Ananiadou, Sophia}, journal={Bioinformatics}, volume={30}, number={6}, pages={868--875}, year={2014}, publisher={Oxford University Press} }

搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，构建高质量的标注语料库对于推动命名实体识别技术的发展至关重要。AnatEM数据集通过精心设计的人工标注流程，从大量生物医学文献中筛选出1212篇文档，涵盖约25万词汇，并由专业标注人员识别出超过1.3万个解剖实体提及。每个标注均参照通用解剖参考本体，被赋予12种基于粒度层次的类型，如细胞成分、组织和器官，确保了标注的一致性与本体对齐，为后续研究提供了可靠的基础。

使用方法

在生物信息学应用中，AnatEM数据集为命名实体识别模型的训练与评估提供了实用框架。研究人员可直接从HuggingFace平台获取该数据集，利用其标注的解剖实体提及进行监督学习，开发或优化NER算法。使用过程中，建议先预处理文本数据，结合标注类型进行特征提取，并采用交叉验证等方法评估模型性能。该数据集兼容常见NLP工具链，支持快速集成到现有工作流中，助力推动生物医学文本挖掘的进展。

背景与挑战

背景概述

在生物医学信息学领域，文本挖掘技术对于从海量文献中提取结构化知识至关重要。AnatEM数据集由英国曼彻斯特大学国家文本挖掘中心（NaCTeM）的研究团队于2014年创建，核心研究人员包括Sampo Pyysalo和Sophia Ananiadou。该数据集旨在解决解剖学实体提及识别这一核心研究问题，通过手动标注1212篇文档中的超过13,000个解剖实体提及，并依据通用解剖参考本体定义了12种基于粒度的类型，如细胞成分、组织和器官。AnatEM的发布显著推动了生物医学命名实体识别技术的发展，为后续的实体标准化、关系抽取及知识图谱构建提供了高质量的标注资源，在计算解剖学和生物医学自然语言处理领域产生了深远影响。

当前挑战

AnatEM数据集面临的挑战主要体现在两个方面。在领域问题层面，解剖学实体识别需应对生物医学文本中实体表达的复杂多样性，包括同义词、缩写、嵌套结构及上下文依赖的歧义性，这要求模型具备深层次的语义理解能力以准确区分12种精细的实体类型。在构建过程中，挑战源于大规模标注的一致性维护，解剖学术语体系本身具有层次性和多粒度特性，标注者需严格依据本体定义进行判断，确保跨文档标注标准统一；同时，处理约25万词规模的文献语料，平衡标注广度与深度，并有效整合领域知识以验证标注质量，亦是构建过程中的关键难点。

常用场景

经典使用场景

在生物医学信息学领域，解剖实体识别是文本挖掘的基础任务之一。AnatEM数据集作为一项专门标注解剖实体提及的语料库，其经典使用场景聚焦于训练和评估命名实体识别模型。研究者利用该数据集中的12种粒度类型标注，如细胞成分、组织和器官，来开发算法以自动识别生物医学文献中的解剖学术语，从而支持大规模文献的自动化信息抽取。

解决学术问题

AnatEM数据集有效解决了生物医学文本中解剖实体提及识别不准确和粒度划分模糊的学术挑战。通过提供超过13,000个手动标注的实体提及，该数据集为研究者建立了标准化的评估基准，促进了命名实体识别技术在解剖学领域的精度提升。其基于通用解剖参考本体的类型定义，为实体分类和关系抽取研究提供了可靠的数据基础，推动了生物医学自然语言处理的发展。

实际应用

在实际应用中，AnatEM数据集被广泛集成于生物医学信息系统中，以增强文本挖掘能力。例如，在临床决策支持系统中，该数据集训练的模型能够自动提取病历或研究文献中的解剖结构信息，辅助医生进行疾病诊断和治疗规划。此外，在药物研发和基因组学研究中，它帮助研究人员快速定位与特定解剖实体相关的科学发现，提升数据整合效率。

数据集最近研究