five

CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, WNUT17, BTC, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filings

收藏
github2018-10-30 更新2024-05-31 收录
下载链接:
https://github.com/LiyuanLucasLiu/entity-recognition-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个领域的命名实体识别和实体识别任务的标注数据集,涵盖多种语言、领域和实体类型。

A labeled dataset encompassing named entity recognition and entity recognition tasks across multiple domains, covering various languages, domains, and entity types.
创建时间:
2018-10-14
原始信息汇总

数据集概述

本数据集包含多个领域的英文实体识别数据集,适用于实体识别和命名实体识别(NER)任务。数据集列表如下:

数据集列表

数据集 领域 许可证 参考文献 可用性
CONLL 2003 新闻 DUA Sang and Meulder, 2003 链接1, 链接2, 链接3
NIST-IEER 新闻 None NIST 1999 IE-ER NLTK数据
MUC-6 新闻 LDC Grishman and Sundheim, 1996 LDC 2003T13
OntoNotes 5 多种 LDC Weischedel et al., 2013 LDC 2013T19
BBN 多种 LDC Weischedel and Brunstein, 2005 LDC 2005T33
GMB-1.0.0 多种 None Bos et al., 2017 链接
GUM-3.1.0 Wiki 多种 Zeldes, 2016 包含在此
wikigold Wikipedia CC-BY 4.0 Balasuriya et al., 2009 包含在此
Ritter Twitter None Ritter et al., 2011 无分割, 训练/测试/验证分割
WNUT17 Twitter CC-BY 4.0 Derczynski et al., 2017 包含在此
BTC Twitter CC-BY 4.0 Derczynski et al., 2016 包含在此
i2b2-2006 医学 DUA Uzuner et al., 2007 链接
i2b2-2014 医学 DUA Stubbs et al., 2015 链接
CADEC 医学 CSIRO Karimi et al., 2015 链接
AnEM 解剖学 CC-BY-SA 3.0 Ohta et al., 2012 包含在此
MITRestaurant 查询 None Liu et al., 2013a 链接
MITMovie 查询 None Liu et al., 2013b 链接
MalwareTextDB 恶意软件 None Lim et al., 2017 链接
re3d 防御 多种 DSTL, 2017 包含在此
SEC-filings 金融 CC-BY 3.0 Alvarado et al., 2015 包含在此
Assembly 机器人 X Costa et al., 2017 X

这些数据集涵盖了多个领域和多种许可证,适用于不同类型的实体识别研究。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集包含了多个领域的文本,标注了各种实体类型,旨在为实体识别和命名实体识别(NER)任务提供支持。数据集的构建主要通过收集并标注不同来源的文本数据,转换为CoNLL 2003格式,便于统一处理和分析。
特点
数据集的特点在于涵盖了多种语言和领域,具有丰富的实体类型标注,可以为研究者提供多样化的训练和测试资源。此外,部分数据集还提供了不同版本的许可,满足了不同用户的需求。
使用方法
使用该数据集时,用户可以根据自己的需求选择合适的数据集。数据集通常包含训练集、测试集和验证集,用户可以通过GitHub链接访问数据,并根据README文件中的说明进行数据转换和加载。部分数据集还提供了预训练模型和工具,以便用户快速开展实体识别任务。
背景与挑战
背景概述
CONLL 2003数据集,创建于2003年,由Sang和Meulder主导,是命名实体识别(NER)领域的一个经典数据集。它涵盖了新闻领域的文本,并标注了多种实体类型,对NER任务的研究和评估具有重要意义。NIST-IEER、MUC-6、OntoNotes 5等数据集则分别由NIST、LDC和Weischedel等研究人员或机构创建,它们各自在不同领域或语言上对NER任务产生了深远影响。这些数据集不仅为研究人员提供了丰富的实验材料,也推动了相关领域的理论和技术发展。
当前挑战
在构建这些数据集的过程中,研究人员面临了诸多挑战。首先,确保数据质量的一致性和准确性是一项重要任务,特别是在处理跨领域和跨语言的实体时。其次,由于数据集通常需要大量的人工标注,因此如何高效地进行数据标注也是一个挑战。此外,数据集的多样性和覆盖性也是构建过程中需要考虑的因素,以确保模型能够适应不同的应用场景。
常用场景
经典使用场景
CONLL 2003数据集因其注释质量高、领域广泛而被广泛应用于命名实体识别的研究和教学中,特别是在新闻文本处理方面具有经典的应用场景。
实际应用
在实际应用中,CONLL 2003数据集被用于新闻聚合、信息抽取、自动摘要等场景,为自然语言处理领域提供了基础数据支撑。
衍生相关工作
基于CONLL 2003数据集,研究者们衍生出了多种相关的工作,如跨语言命名实体识别、实体链接等,推动了实体识别技术的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务