CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d

github2020-03-11 更新2024-05-31 收录

下载链接：

https://github.com/arita37/entity-recognition-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含多个领域的数据集，这些数据集被标注了多种实体类型，适用于实体识别和命名实体识别（NER）任务。

This repository encompasses datasets across multiple domains, each annotated with various entity types, making them suitable for entity recognition and named entity recognition (NER) tasks.

创建时间：

2020-03-11

原始信息汇总

数据集概述

本数据集包含多个领域的实体识别和命名实体识别（NER）任务相关的数据集。以下是英文NER数据集的详细列表：

英文NER数据集列表

数据集	领域	许可证	参考文献	可用性
CONLL 2003	新闻	DUA	Sang and Meulder, 2003	易于获取
NIST-IEER	新闻	None	NIST 1999 IE-ER	NLTK数据
MUC-6	新闻	LDC	Grishman and Sundheim, 1996	LDC 2003T13
OntoNotes 5	多种	LDC	Weischedel et al., 2013	LDC 2013T19
BBN	多种	LDC	Weischedel and Brunstein, 2005	LDC 2005T33
GMB-1.0.0	多种	None	Bos et al., 2017	http://gmb.let.rug.nl/data.php
GUM-3.1.0	Wiki	多种	Zeldes, 2016	包含在此
wikigold	Wikipedia	CC-BY 4.0	Balasuriya et al., 2009	包含在此
Ritter	Twitter	None	Ritter et al., 2011	无分割，训练/测试/开发分割
BTC	Twitter	CC-BY 4.0	Derczynski et al., 2016	包含在此
WNUT17	社交媒体	CC-BY 4.0	Derczynski et al., 2017	包含在此
i2b2-2006	医学	DUA	Uzuner et al., 2007	http://www.i2b2.org
i2b2-2014	医学	DUA	Stubbs et al., 2015	http://www.i2b2.org
CADEC	医学	CSIRO	Karimi et al., 2015	http://data.csiro.au
AnEM	解剖学	CC-BY-SA 3.0	Ohta et al., 2012	包含在此
MITRestaurant	查询	None	Liu et al., 2013a	http://groups.csail.mit.edu/sls/downloads/restaurant/
MITMovie	查询	None	Liu et al., 2013b	http://groups.csail.mit.edu/sls/downloads/movie/
MalwareTextDB	恶意软件	None	Lim et al., 2017	http://www.statnlp.org/
re3d	防御	多种	DSTL, 2017	包含在此
SEC-filings	金融	CC-BY 3.0	Alvarado et al., 2015	包含在此
Assembly	机器人	X	Costa et al., 2017	X

许可证信息

re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集，具有不同的许可证：
- CC-BY-SA 3.0 (Wikipedia dataset)
- CC BY-NC 3.0 (BBC_Online dataset)
- CC BY 3.0 AU (Australian_Department_of_Foreign_Affairs dataset)
- 公共领域 (US_State_Department dataset, CENTCOM dataset)
- UK Open Government Licence v3.0 (UK_Government dataset)
- Delegation_of_the_European_Union_to_Syria: 见 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
GUM 3.1.0 包含三个数据集，许可证为 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。注释的许可证为 CC-BY 4.0。

更多详细的许可证信息可在相应的子目录中找到。

搜集汇总

数据集介绍

构建方式

CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5等数据集主要通过手工标注的方式构建，包含新闻、社交媒体、医学记录等多个领域的数据，标注了各种实体类型，适用于实体识别和命名实体识别任务。这些数据集在构建过程中，注重实体边界的准确标注和实体类型的细致分类。

使用方法

用户可以通过数据集中的README文件和提供的链接获取数据集，并根据具体的研究需求进行使用。部分数据集可能因为版权限制不能直接获取，但提供了转换至CoNLL 2003格式的代码。用户需要遵循相应数据集的使用条款和许可协议。

背景与挑战

背景概述

CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d等数据集均为实体识别领域的重要资源。它们涵盖了新闻、社交媒体、医学、法律、金融等多个领域，为实体识别任务提供了丰富的标注数据。这些数据集的创建时间不等，最早的如CONLL 2003可以追溯到2003年，而最新的如re3d数据集则是在2017年发布。它们由多个研究机构或个人贡献，如NIST、LDC、MIT等，对相关领域的研究产生了深远的影响。

当前挑战

实体识别领域面临的挑战包括：1)如何准确识别不同类型的实体，尤其是在跨领域的数据中；2)如何处理实体识别中的歧义和模糊性；3)如何构建高效、可扩展的实体识别系统。在数据集构建过程中遇到的挑战则包括：1)数据的标注质量保证；2)数据集的多样性和代表性；3)跨语言和跨领域的实体识别问题。

常用场景

经典使用场景

CONLL 2003数据集是命名实体识别领域的一个经典使用场景，它被广泛用于训练和评估实体识别模型。该数据集包含了新闻领域的文本，标注了多种实体类型，是研究命名实体识别的基础资源。

解决学术问题

该数据集解决了学术研究中如何准确识别文本中命名实体的问题，对于理解文本内容、提取关键信息以及构建知识图谱等任务具有重要意义。它帮助研究者改进实体识别算法，提高模型的准确性和鲁棒性。

实际应用

在实际应用中，CONLL 2003数据集可用于新闻聚合、信息抽取、问答系统、搜索引擎优化等领域，通过识别文本中的命名实体，可以提升这些应用的数据处理能力和智能化水平。

数据集最近研究