craft

Hugging Face2026-02-25 更新2026-02-26 收录

下载链接：

https://huggingface.co/datasets/Lamurias/craft

下载链接

链接失效反馈

官方服务：

资源简介：

CRAFT 数据集包含来自 PubMed Central 开放获取子集的 97 篇文章，每篇文章都沿着多个不同的维度进行了注释，涵盖结构、共指和概念注释。该数据集支持命名实体识别（NER）和命名实体消歧（NED）任务。数据集提供三种配置：craft_bigbio_kb（包含段落、实体、事件、共指和关系等结构化特征）、craft_source（包含原始文本和简单注释）和 default（基础配置）。数据特征包括文档ID、文本段落、实体信息（类型、文本、偏移量、标准化数据库链接）、事件触发词及参数、共指链和实体间关系等。数据集采用 CC-BY-3.0 许可，为英文单语资源。训练集包含60个样本，验证集7个，测试集30个，另有多个特定测试子集。

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，CRAFT数据集作为一项重要资源，其构建过程体现了严谨的学术规范。该数据集精选了来自PubMed Central开放获取子集的97篇学术文章，并在此基础上进行了多层次的精细化标注。构建工作不仅涵盖了文本的结构化解析，还深入进行了概念标注、共指消解以及事件与关系的识别，每一篇文献的注释均关联到标准化的生物医学本体数据库，确保了语义的精确性与可追溯性。

特点

CRAFT数据集的显著特征在于其标注体系的多维性与深度。它超越了基础的命名实体识别，提供了包括实体、事件、共指链和关系在内的丰富语义结构。数据集特别注重概念到标准生物医学本体（如GO、CheBI等）的消歧链接，这为生物医学知识发现提供了坚实的语义基础。其精心划分的训练、验证和测试集，以及针对特定生物过程的子测试集，为模型评估提供了细致的基准。

使用方法

该数据集主要服务于生物医学自然语言处理任务，特别是命名实体识别与消歧。研究人员可通过其提供的‘craft_bigbio_kb’等配置，便捷地获取结构化的知识库格式数据，直接用于模型训练与评估。数据集中详尽的实体归一化信息与事件论元结构，为构建能够理解复杂生物医学文本语义的先进模型提供了关键的训练素材和评测标准。

背景与挑战

背景概述

在生物医学文本挖掘领域，高质量的标注语料库是推动命名实体识别与消歧等自然语言处理技术发展的基石。科罗拉多大学丹佛分校计算药理学中心的研究团队于2012年发布了CRAFT语料库，该资源精心选取了97篇来自PubMed Central开放获取子集的学术文献，并进行了多层次、细粒度的语义标注。该数据集的核心研究目标在于为生物医学概念提供精确的结构化表示，通过整合实体、事件、共指及关系等多维注释，旨在解决生物医学文献中复杂术语的标准化识别与语义关联难题，对后续生物信息学与计算语言学交叉研究产生了深远影响。

当前挑战

CRAFT数据集致力于应对生物医学命名实体识别与消歧任务中的核心挑战，即如何在高度专业且表述多样的文献中，准确抽提并关联诸如基因、蛋白质、化学物质等复杂生物医学概念。其构建过程同样面临显著困难，包括需要协调领域专家对文本进行多层次、一致性的人工标注，确保不同概念体系间的映射准确无误，以及处理生物医学术语本身的歧义性与动态演化特性，这些因素共同构成了数据集构建的质量与可扩展性壁垒。

常用场景

经典使用场景

在生物医学文本挖掘领域，CRAFT数据集以其精细的概念标注体系，为命名实体识别与消歧任务提供了经典范例。该数据集收录了来自PubMed Central开放获取子集的97篇学术文章，每篇文章均经过多维度标注，涵盖结构、共指和概念注释。研究者通常利用这些标注数据，训练和评估生物医学实体识别模型，特别是在基因、蛋白质、化学物质等关键生物学术语的抽取与标准化方面，展现了其作为基准测试资源的卓越价值。

解决学术问题

CRAFT数据集有效应对了生物医学文献中概念标注不一致与标准化缺失的学术挑战。通过提供统一的概念标识符链接至权威数据库，如基因本体和ChEBI，该数据集促进了命名实体消歧研究的深入，解决了术语多义性与同义性问题。其标注框架不仅提升了实体识别模型的精确度，还为生物医学知识图谱的构建与语义关系挖掘奠定了坚实基础，推动了计算语言学与生物信息学的交叉融合。

衍生相关工作

围绕CRAFT数据集，学术界衍生了一系列经典研究工作，包括基于深度学习的生物医学命名实体识别模型，如BiLSTM-CRF与BERT变体的应用探索。这些研究不仅优化了实体抽取性能，还扩展至事件抽取与关系预测任务。同时，该数据集促进了标准化评估协议的建立，例如在BioNLP共享任务中作为基准，激励了多机构协作，推动了生物医学自然语言处理领域的整体进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集