CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d
收藏github2021-01-11 更新2024-05-31 收录
下载链接:
https://github.com/yuchenlin/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的标注数据集,适用于实体识别和命名实体识别任务。这些数据集覆盖了多种语言、领域和实体类型。
This repository contains annotated datasets across multiple domains, suitable for entity recognition and named entity recognition tasks. These datasets encompass a variety of languages, domains, and entity types.
创建时间:
2019-01-25
原始信息汇总
数据集概述
本数据集包含多个领域的英文实体识别数据集,适用于实体识别和命名实体识别(NER)任务。数据集列表如下:
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 易于获取 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| GUM-3.1.0 | Wiki | 多种(*2) | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | None | Ritter et al., 2011 | 无分割,训练/测试/验证分割 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| WNUT17 | 社交媒体 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | http://data.csiro.au |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| MITMovie | 查询 | None | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | 防御 | 多种(*1) | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
许可证信息
-
re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证:
- CC-BY-SA 3.0 (Wikipedia dataset)
- CC BY-NC 3.0 (BBC_Online dataset)
- CC BY 3.0 AU (Australian_Department_of_Foreign_Affairs dataset)
- 公共领域 (US_State_Department dataset, CENTCOM dataset)
- UK Open Government Licence v3.0 (UK_Government dataset)
- Delegation_of_the_European_Union_to_Syria: 见 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
-
GUM 3.1.0 包含三个数据集,许可证分别为 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。注释的许可证为 CC-BY 4.0。
更多详细许可证信息可在相应子目录中找到。
搜集汇总
数据集介绍

构建方式
该数据集汇集了多个领域的实体识别数据,涵盖了新闻、社交媒体、医学、金融等多个领域。数据集的构建主要依赖于公开的语料库和特定领域的标注数据,部分数据通过人工标注或半自动标注工具生成。数据格式统一为CoNLL 2003格式,便于后续的模型训练和评估。对于无法直接共享的数据,提供了获取链接和转换代码,确保数据的可访问性和一致性。
特点
该数据集的特点在于其多样性和广泛的应用场景。涵盖了从新闻、社交媒体到医学、金融等多个领域,且每个领域的数据都经过精细的标注,标注的实体类型丰富多样。数据集的语言主要为英语,但也包含其他语言的资源链接,支持跨语言的实体识别研究。此外,数据集的格式统一,便于研究人员快速上手并进行模型训练和评估。
使用方法
该数据集的使用方法较为灵活,适用于多种实体识别任务。研究人员可以通过提供的链接或代码获取数据,并将其转换为CoNLL 2003格式进行模型训练。数据集中的每个子集都附有详细的元数据信息,包括领域、许可证和参考文献,便于用户根据需求选择合适的子集。此外,数据集还提供了其他语言的资源链接,支持跨语言的实体识别研究。用户可以根据具体任务需求,选择不同的数据集进行实验和评估。
背景与挑战
背景概述
CONLL 2003数据集是自然语言处理领域中用于命名实体识别(NER)任务的重要基准数据集之一,由Erik F. Tjong Kim Sang和Fien De Meulder于2003年创建。该数据集主要基于新闻文本,涵盖了人名、地名、组织名等实体类型,广泛应用于NER模型的训练与评估。其影响力不仅体现在推动了NER技术的发展,还为后续的多语言NER数据集提供了参考标准。此外,CONLL 2003数据集的开源特性使其成为学术界和工业界研究的重要资源,极大地促进了NER领域的进步。
当前挑战
CONLL 2003数据集在解决命名实体识别问题时面临的主要挑战包括实体边界的模糊性和实体类型的多样性。新闻文本中的实体往往具有复杂的上下文关系,导致模型难以准确识别实体边界。此外,数据集的构建过程中也面临诸多挑战,例如标注的一致性问题和数据来源的多样性。由于新闻文本的时效性和领域特异性,数据集的泛化能力受到限制,难以直接应用于其他领域或语言。同时,数据集的规模相对较小,限制了深度学习模型的训练效果,进一步增加了NER任务的难度。
常用场景
经典使用场景
在自然语言处理领域,CONLL 2003数据集被广泛用于命名实体识别(NER)任务的研究与开发。该数据集包含了新闻文本中的人名、地名、组织名等实体标注,为研究者提供了一个标准化的测试平台。通过该数据集,研究者能够评估和比较不同NER模型的性能,尤其是在处理新闻文本时的准确性和鲁棒性。
实际应用
在实际应用中,CONLL 2003数据集被广泛用于新闻文本的自动化处理和信息提取。例如,新闻机构可以利用基于该数据集训练的NER模型,自动识别新闻中的关键实体,从而加速新闻分类、摘要生成和信息检索等任务。此外,该数据集还被用于构建智能客服系统,帮助系统更好地理解用户输入中的实体信息,从而提供更精准的响应。
衍生相关工作
CONLL 2003数据集催生了大量经典的NER研究工作。例如,基于该数据集的BiLSTM-CRF模型成为了NER领域的基准模型之一。此外,许多研究者在该数据集的基础上提出了改进的深度学习模型,如BERT-based NER模型,这些模型在多个NER任务中取得了显著的性能提升。该数据集还推动了跨领域NER研究的发展,如社交媒体、医学文本等领域的实体识别任务。
以上内容由遇见数据集搜集并总结生成



