CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, WNUT17, BTC, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filings
收藏github2019-04-24 更新2024-05-31 收录
下载链接:
https://github.com/agromanou/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。
This repository encompasses datasets from multiple domains, each annotated with various entity types, making them suitable for entity recognition and Named Entity Recognition (NER) tasks.
创建时间:
2018-10-15
原始信息汇总
数据集概述
本仓库包含多个领域的数据集,这些数据集已被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。
数据集列表
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 易于获取 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| GUM-3.1.0 | Wiki | 多种(*2) | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | None | Ritter et al., 2011 | 无分割,训练/测试/开发分割 | |
| WNUT17 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | http://data.csiro.au |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| MITMovie | 查询 | None | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | 防御 | 多种(*1) | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
许可证说明
- re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证。
- GUM 3.1.0 包含三个数据集,许可证包括 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。
更多详细的许可证信息可在相应数据集的子目录中找到。
搜集汇总
数据集介绍

构建方式
该数据集包含多个领域的注释数据集,每种类型的数据集都针对实体识别和命名实体识别(NER)任务进行了优化。数据集的构建主要通过收集和注释各个领域的文本,然后将它们转换为CoNLL 2003格式,以方便研究者使用。
使用方法
使用该数据集时,用户可以根据自己的研究需求选择合适的数据集。对于受版权限制无法直接共享的数据集,数据页提供了获取途径。部分数据集已经转换为CoNLL 2003格式,可以直接用于实体识别研究。
背景与挑战
背景概述
CONLL 2003数据集,创建于2003年,由Sang和Meulder主导,是命名实体识别(NER)领域的重要资源。该数据集主要来源于新闻领域,具有DUA版权,其核心研究问题是准确地识别文本中的命名实体。CONLL 2003对相关领域产生了深远的影响,推动了NER技术的发展。NIST-IEER、MUC-6、OntoNotes 5等数据集同样在新闻、多领域等不同场景下对命名实体进行了标注,为NER研究提供了丰富的数据资源。
当前挑战
在构建这些数据集时,研究人员面临了多种挑战。首先,确保数据的质量和一致性是一项关键任务,涉及复杂的标注过程和标注标准的制定。其次,由于数据集通常包含敏感信息,如何处理版权和隐私问题也是一大挑战。此外,不同领域的文本具有不同的语言特征和实体类型,这要求在构建数据集时考虑到领域的多样性和实体类型的全面性。例如,在处理医学、法律或金融等特定领域的文本时,需要专门构建或采用针对这些领域的NER数据集。
常用场景
经典使用场景
CONLL 2003数据集被广泛用于命名实体识别(NER)任务,特别是在新闻领域。该数据集包含标注了多种实体类型的文本,可用于训练和评估NER模型,其经典的使用场景包括对新闻文章进行实体识别,以提取人名、地点名和机构名等。
解决学术问题
该数据集解决了学术研究中如何准确识别文本中命名实体的问题,对于自然语言处理领域的研究者来说,它提供了一个可靠的标准数据集来进行模型训练和性能评估,有助于推动实体识别技术的发展。
实际应用
在实际应用中,CONLL 2003数据集可应用于构建信息抽取系统,如自动从新闻文章中提取关键信息,或用于增强搜索引擎的语义理解能力,提高搜索结果的相关性。
数据集最近研究
最新研究方向
CONLL 2003、NIST-IEER、MUC-6等数据集在本领域的前沿研究方向主要集中在命名实体识别(NER)任务上,涵盖了新闻、医疗、社交媒体等多个领域。相关研究正致力于提高NER的准确性和泛化能力,例如通过深度学习技术进行实体识别和关系抽取。此外,也有研究关注跨语言和跨领域的NER,以及实体链接和实体类型消歧等任务。
以上内容由遇见数据集搜集并总结生成



