five

CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, WNUT17, BTC, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filings

收藏
github2019-04-24 更新2024-05-31 收录
下载链接:
https://github.com/agromanou/entity-recognition-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。

This repository encompasses datasets from multiple domains, each annotated with various entity types, making them suitable for entity recognition and Named Entity Recognition (NER) tasks.
创建时间:
2018-10-15
原始信息汇总

数据集概述

本仓库包含多个领域的数据集,这些数据集已被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。

数据集列表

数据集 领域 许可证 参考文献 可用性
CONLL 2003 新闻 DUA Sang and Meulder, 2003 易于获取
NIST-IEER 新闻 None NIST 1999 IE-ER NLTK数据
MUC-6 新闻 LDC Grishman and Sundheim, 1996 LDC 2003T13
OntoNotes 5 多种 LDC Weischedel et al., 2013 LDC 2013T19
BBN 多种 LDC Weischedel and Brunstein, 2005 LDC 2005T33
GMB-1.0.0 多种 None Bos et al., 2017 http://gmb.let.rug.nl/data.php
GUM-3.1.0 Wiki 多种(*2) Zeldes, 2016 包含在此
wikigold Wikipedia CC-BY 4.0 Balasuriya et al., 2009 包含在此
Ritter Twitter None Ritter et al., 2011 无分割,训练/测试/开发分割
WNUT17 Twitter CC-BY 4.0 Derczynski et al., 2017 包含在此
BTC Twitter CC-BY 4.0 Derczynski et al., 2016 包含在此
i2b2-2006 医学 DUA Uzuner et al., 2007 http://www.i2b2.org
i2b2-2014 医学 DUA Stubbs et al., 2015 http://www.i2b2.org
CADEC 医学 CSIRO Karimi et al., 2015 http://data.csiro.au
AnEM 解剖学 CC-BY-SA 3.0 Ohta et al., 2012 包含在此
MITRestaurant 查询 None Liu et al., 2013a http://groups.csail.mit.edu/sls/
MITMovie 查询 None Liu et al., 2013b http://groups.csail.mit.edu/sls/
MalwareTextDB 恶意软件 None Lim et al., 2017 http://www.statnlp.org/
re3d 防御 多种(*1) DSTL, 2017 包含在此
SEC-filings 金融 CC-BY 3.0 Alvarado et al., 2015 包含在此
Assembly 机器人 X Costa et al., 2017 X

许可证说明

  • re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证。
  • GUM 3.1.0 包含三个数据集,许可证包括 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。

更多详细的许可证信息可在相应数据集的子目录中找到。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集包含多个领域的注释数据集,每种类型的数据集都针对实体识别和命名实体识别(NER)任务进行了优化。数据集的构建主要通过收集和注释各个领域的文本,然后将它们转换为CoNLL 2003格式,以方便研究者使用。
使用方法
使用该数据集时,用户可以根据自己的研究需求选择合适的数据集。对于受版权限制无法直接共享的数据集,数据页提供了获取途径。部分数据集已经转换为CoNLL 2003格式,可以直接用于实体识别研究。
背景与挑战
背景概述
CONLL 2003数据集,创建于2003年,由Sang和Meulder主导,是命名实体识别(NER)领域的重要资源。该数据集主要来源于新闻领域,具有DUA版权,其核心研究问题是准确地识别文本中的命名实体。CONLL 2003对相关领域产生了深远的影响,推动了NER技术的发展。NIST-IEER、MUC-6、OntoNotes 5等数据集同样在新闻、多领域等不同场景下对命名实体进行了标注,为NER研究提供了丰富的数据资源。
当前挑战
在构建这些数据集时,研究人员面临了多种挑战。首先,确保数据的质量和一致性是一项关键任务,涉及复杂的标注过程和标注标准的制定。其次,由于数据集通常包含敏感信息,如何处理版权和隐私问题也是一大挑战。此外,不同领域的文本具有不同的语言特征和实体类型,这要求在构建数据集时考虑到领域的多样性和实体类型的全面性。例如,在处理医学、法律或金融等特定领域的文本时,需要专门构建或采用针对这些领域的NER数据集。
常用场景
经典使用场景
CONLL 2003数据集被广泛用于命名实体识别(NER)任务,特别是在新闻领域。该数据集包含标注了多种实体类型的文本,可用于训练和评估NER模型,其经典的使用场景包括对新闻文章进行实体识别,以提取人名、地点名和机构名等。
解决学术问题
该数据集解决了学术研究中如何准确识别文本中命名实体的问题,对于自然语言处理领域的研究者来说,它提供了一个可靠的标准数据集来进行模型训练和性能评估,有助于推动实体识别技术的发展。
实际应用
在实际应用中,CONLL 2003数据集可应用于构建信息抽取系统,如自动从新闻文章中提取关键信息,或用于增强搜索引擎的语义理解能力,提高搜索结果的相关性。
数据集最近研究
最新研究方向
CONLL 2003、NIST-IEER、MUC-6等数据集在本领域的前沿研究方向主要集中在命名实体识别(NER)任务上,涵盖了新闻、医疗、社交媒体等多个领域。相关研究正致力于提高NER的准确性和泛化能力,例如通过深度学习技术进行实体识别和关系抽取。此外,也有研究关注跨语言和跨领域的NER,以及实体链接和实体类型消歧等任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务