CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, WNUT17, BTC, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filings
收藏github2018-10-30 更新2024-05-31 收录
下载链接:
https://github.com/LiyuanLucasLiu/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含多个领域的命名实体识别和实体识别任务的标注数据集,涵盖多种语言、领域和实体类型。
A labeled dataset encompassing named entity recognition and entity recognition tasks across multiple domains, covering various languages, domains, and entity types.
创建时间:
2018-10-14
原始信息汇总
数据集概述
本数据集包含多个领域的英文实体识别数据集,适用于实体识别和命名实体识别(NER)任务。数据集列表如下:
数据集列表
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 链接1, 链接2, 链接3 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | 链接 |
| GUM-3.1.0 | Wiki | 多种 | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | None | Ritter et al., 2011 | 无分割, 训练/测试/验证分割 | |
| WNUT17 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | 链接 |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | 链接 |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | 链接 |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | 链接 |
| MITMovie | 查询 | None | Liu et al., 2013b | 链接 |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | 链接 |
| re3d | 防御 | 多种 | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
这些数据集涵盖了多个领域和多种许可证,适用于不同类型的实体识别研究。
搜集汇总
数据集介绍

构建方式
该数据集包含了多个领域的文本,标注了各种实体类型,旨在为实体识别和命名实体识别(NER)任务提供支持。数据集的构建主要通过收集并标注不同来源的文本数据,转换为CoNLL 2003格式,便于统一处理和分析。
特点
数据集的特点在于涵盖了多种语言和领域,具有丰富的实体类型标注,可以为研究者提供多样化的训练和测试资源。此外,部分数据集还提供了不同版本的许可,满足了不同用户的需求。
使用方法
使用该数据集时,用户可以根据自己的需求选择合适的数据集。数据集通常包含训练集、测试集和验证集,用户可以通过GitHub链接访问数据,并根据README文件中的说明进行数据转换和加载。部分数据集还提供了预训练模型和工具,以便用户快速开展实体识别任务。
背景与挑战
背景概述
CONLL 2003数据集,创建于2003年,由Sang和Meulder主导,是命名实体识别(NER)领域的一个经典数据集。它涵盖了新闻领域的文本,并标注了多种实体类型,对NER任务的研究和评估具有重要意义。NIST-IEER、MUC-6、OntoNotes 5等数据集则分别由NIST、LDC和Weischedel等研究人员或机构创建,它们各自在不同领域或语言上对NER任务产生了深远影响。这些数据集不仅为研究人员提供了丰富的实验材料,也推动了相关领域的理论和技术发展。
当前挑战
在构建这些数据集的过程中,研究人员面临了诸多挑战。首先,确保数据质量的一致性和准确性是一项重要任务,特别是在处理跨领域和跨语言的实体时。其次,由于数据集通常需要大量的人工标注,因此如何高效地进行数据标注也是一个挑战。此外,数据集的多样性和覆盖性也是构建过程中需要考虑的因素,以确保模型能够适应不同的应用场景。
常用场景
经典使用场景
CONLL 2003数据集因其注释质量高、领域广泛而被广泛应用于命名实体识别的研究和教学中,特别是在新闻文本处理方面具有经典的应用场景。
实际应用
在实际应用中,CONLL 2003数据集被用于新闻聚合、信息抽取、自动摘要等场景,为自然语言处理领域提供了基础数据支撑。
衍生相关工作
基于CONLL 2003数据集,研究者们衍生出了多种相关的工作,如跨语言命名实体识别、实体链接等,推动了实体识别技术的发展。
以上内容由遇见数据集搜集并总结生成



