CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, WNUT17, BTC, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filings

github2018-10-30 更新2024-05-31 收录

下载链接：

https://github.com/LiyuanLucasLiu/entity-recognition-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个领域的命名实体识别和实体识别任务的标注数据集，涵盖多种语言、领域和实体类型。

A labeled dataset encompassing named entity recognition and entity recognition tasks across multiple domains, covering various languages, domains, and entity types.

创建时间：

2018-10-14

原始信息汇总

数据集概述

本数据集包含多个领域的英文实体识别数据集，适用于实体识别和命名实体识别（NER）任务。数据集列表如下：

数据集列表

数据集	领域	许可证	参考文献	可用性
CONLL 2003	新闻	DUA	Sang and Meulder, 2003	链接1, 链接2, 链接3
NIST-IEER	新闻	None	NIST 1999 IE-ER	NLTK数据
MUC-6	新闻	LDC	Grishman and Sundheim, 1996	LDC 2003T13
OntoNotes 5	多种	LDC	Weischedel et al., 2013	LDC 2013T19
BBN	多种	LDC	Weischedel and Brunstein, 2005	LDC 2005T33
GMB-1.0.0	多种	None	Bos et al., 2017	链接
GUM-3.1.0	Wiki	多种	Zeldes, 2016	包含在此
wikigold	Wikipedia	CC-BY 4.0	Balasuriya et al., 2009	包含在此
Ritter	Twitter	None	Ritter et al., 2011	无分割, 训练/测试/验证分割
WNUT17	Twitter	CC-BY 4.0	Derczynski et al., 2017	包含在此
BTC	Twitter	CC-BY 4.0	Derczynski et al., 2016	包含在此
i2b2-2006	医学	DUA	Uzuner et al., 2007	链接
i2b2-2014	医学	DUA	Stubbs et al., 2015	链接
CADEC	医学	CSIRO	Karimi et al., 2015	链接
AnEM	解剖学	CC-BY-SA 3.0	Ohta et al., 2012	包含在此
MITRestaurant	查询	None	Liu et al., 2013a	链接
MITMovie	查询	None	Liu et al., 2013b	链接
MalwareTextDB	恶意软件	None	Lim et al., 2017	链接
re3d	防御	多种	DSTL, 2017	包含在此
SEC-filings	金融	CC-BY 3.0	Alvarado et al., 2015	包含在此
Assembly	机器人	X	Costa et al., 2017	X

这些数据集涵盖了多个领域和多种许可证，适用于不同类型的实体识别研究。

搜集汇总

数据集介绍

构建方式

该数据集包含了多个领域的文本，标注了各种实体类型，旨在为实体识别和命名实体识别（NER）任务提供支持。数据集的构建主要通过收集并标注不同来源的文本数据，转换为CoNLL 2003格式，便于统一处理和分析。

特点

数据集的特点在于涵盖了多种语言和领域，具有丰富的实体类型标注，可以为研究者提供多样化的训练和测试资源。此外，部分数据集还提供了不同版本的许可，满足了不同用户的需求。

使用方法

使用该数据集时，用户可以根据自己的需求选择合适的数据集。数据集通常包含训练集、测试集和验证集，用户可以通过GitHub链接访问数据，并根据README文件中的说明进行数据转换和加载。部分数据集还提供了预训练模型和工具，以便用户快速开展实体识别任务。

背景与挑战

背景概述

CONLL 2003数据集，创建于2003年，由Sang和Meulder主导，是命名实体识别（NER）领域的一个经典数据集。它涵盖了新闻领域的文本，并标注了多种实体类型，对NER任务的研究和评估具有重要意义。NIST-IEER、MUC-6、OntoNotes 5等数据集则分别由NIST、LDC和Weischedel等研究人员或机构创建，它们各自在不同领域或语言上对NER任务产生了深远影响。这些数据集不仅为研究人员提供了丰富的实验材料，也推动了相关领域的理论和技术发展。

当前挑战

在构建这些数据集的过程中，研究人员面临了诸多挑战。首先，确保数据质量的一致性和准确性是一项重要任务，特别是在处理跨领域和跨语言的实体时。其次，由于数据集通常需要大量的人工标注，因此如何高效地进行数据标注也是一个挑战。此外，数据集的多样性和覆盖性也是构建过程中需要考虑的因素，以确保模型能够适应不同的应用场景。

常用场景

经典使用场景

CONLL 2003数据集因其注释质量高、领域广泛而被广泛应用于命名实体识别的研究和教学中，特别是在新闻文本处理方面具有经典的应用场景。

实际应用

在实际应用中，CONLL 2003数据集被用于新闻聚合、信息抽取、自动摘要等场景，为自然语言处理领域提供了基础数据支撑。

衍生相关工作

基于CONLL 2003数据集，研究者们衍生出了多种相关的工作，如跨语言命名实体识别、实体链接等，推动了实体识别技术的发展。

以上内容由遇见数据集搜集并总结生成