CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d, SEC-filin
收藏github2019-12-04 更新2024-05-31 收录
下载链接:
https://github.com/allanj/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。
This repository encompasses datasets from various domains, annotated with multiple entity types, suitable for entity recognition and Named Entity Recognition (NER) tasks.
创建时间:
2019-04-17
原始信息汇总
数据集概述
本数据集包含多个领域的英语语言实体识别数据集,适用于实体识别和命名实体识别(NER)任务。数据集列表如下:
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 易于获取 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| GUM-3.1.0 | Wiki | 多种 | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | None | Ritter et al., 2011 | 无分割,训练/测试/开发分割 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| WNUT17 | 社交媒体 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | http://data.csiro.au |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | http://groups.csail.mit.edu/sls/downloads/restaurant/ |
| MITMovie | 查询 | None | Liu et al., 2013b | http://groups.csail.mit.edu/sls/downloads/movie/ |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | http://www.statnlp.org/research/re/MalwareTextDB-1.0.zip |
| re3d | 防御 | 多种 | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
许可证信息
-
re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证:
- CC-BY-SA 3.0 (Wikipedia dataset)
- CC BY-NC 3.0 (BBC_Online dataset)
- CC BY 3.0 AU (Australian_Department_of_Foreign_Affairs dataset)
- 公共领域 (US_State_Department dataset, CENTCOM dataset)
- UK Open Government Licence v3.0 (UK_Government dataset)
- Delegation_of_the_European_Union_to_Syria: 见 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
-
GUM 3.1.0 包含三个数据集,许可证分别为 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。注释的许可证为 CC-BY 4.0。
更多详细许可证信息可在相应子目录中找到。
搜集汇总
数据集介绍

构建方式
该数据集包含多个领域的注释数据集,涵盖了各种实体类型,旨在为实体识别和命名实体识别任务提供支持。数据集的构建主要依赖于对新闻、社交媒体、医学、维基百科等多种来源的文本进行注释,并将部分数据转换为CoNLL 2003格式,以满足不同的研究需求。
特点
数据集的特点在于其多样性,涵盖了不同领域的文本,如新闻、社交媒体、医学等,同时包含了多种语言的数据集。此外,部分数据集还提供了不同粒度的实体类型注释,有助于研究者进行深入的分析和研究。
使用方法
使用该数据集时,用户可以根据自己的需求选择相应的领域和语言的数据集。对于无法直接获取的数据集,可以参考README文件中提供的链接和信息。在使用过程中,需要遵守各数据集的许可协议,并根据其格式要求进行相应的转换和处理。
背景与挑战
背景概述
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN等数据集构成了命名实体识别(NER)领域的基础资源,它们涵盖了新闻、医学、社交媒体等多个领域,为研究人员提供了丰富的实体标注数据。CONLL 2003数据集由Sang和Meulder于2003年创建,是NER领域的经典数据集之一。NIST-IEER数据集由NIST于1999年发布,专注于新闻领域的实体识别。MUC-6和OntoNotes 5则提供了更细粒度的实体标注。BBN数据集则由LDC提供,涵盖了多种类型的实体。这些数据集的创建,极大地推动了NER技术的发展,对相关领域产生了深远的影响。
当前挑战
尽管这些数据集为NER研究提供了宝贵的资源,但在使用过程中也面临着诸多挑战。首先,不同数据集在领域、标注粒度和许可方面存在差异,这为跨数据集的比较和研究带来了困难。其次,实体类型和标注规则的多样性增加了模型训练和评估的复杂性。此外,构建大型、高质量的NER数据集需要大量的时间和资源,且在数据收集和标注过程中可能会遇到版权和隐私等问题。最后,随着社交媒体等新兴领域的兴起,现有数据集可能无法完全满足新场景下的NER需求,这要求研究者不断探索新的数据集构建方法和实体识别技术。
常用场景
经典使用场景
CONLL 2003数据集因其标准化的标注格式和丰富的实体类型,被广泛用于命名实体识别(NER)任务中,特别是在新闻领域的实体抽取。NIST-IEER和MUC-6则因其对实体识别的评价指标和多样化的数据来源,成为研究和评估NER系统性能的重要资源。
实际应用
在实际应用中,这些数据集被用于构建信息抽取系统,支持自动从非结构化文本中提取结构化信息,广泛应用于信息检索、问答系统、文本分析和语义理解等领域。
衍生相关工作
基于这些数据集,研究者们衍生出了一系列相关的工作,如跨语言命名实体识别、实体链接和实体消歧等,进一步拓展了命名实体识别的研究边界和应用范围。
以上内容由遇见数据集搜集并总结生成



