CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d
收藏github2020-03-11 更新2024-05-31 收录
下载链接:
https://github.com/arita37/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。
This repository encompasses datasets across multiple domains, each annotated with various entity types, making them suitable for entity recognition and named entity recognition (NER) tasks.
创建时间:
2020-03-11
原始信息汇总
数据集概述
本数据集包含多个领域的实体识别和命名实体识别(NER)任务相关的数据集。以下是英文NER数据集的详细列表:
英文NER数据集列表
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 易于获取 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| GUM-3.1.0 | Wiki | 多种 | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | None | Ritter et al., 2011 | 无分割,训练/测试/开发分割 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| WNUT17 | 社交媒体 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | http://data.csiro.au |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | http://groups.csail.mit.edu/sls/downloads/restaurant/ |
| MITMovie | 查询 | None | Liu et al., 2013b | http://groups.csail.mit.edu/sls/downloads/movie/ |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | 防御 | 多种 | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
许可证信息
-
re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证:
- CC-BY-SA 3.0 (Wikipedia dataset)
- CC BY-NC 3.0 (BBC_Online dataset)
- CC BY 3.0 AU (Australian_Department_of_Foreign_Affairs dataset)
- 公共领域 (US_State_Department dataset, CENTCOM dataset)
- UK Open Government Licence v3.0 (UK_Government dataset)
- Delegation_of_the_European_Union_to_Syria: 见 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
-
GUM 3.1.0 包含三个数据集,许可证为 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。注释的许可证为 CC-BY 4.0。
更多详细的许可证信息可在相应的子目录中找到。
搜集汇总
数据集介绍

构建方式
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5等数据集主要通过手工标注的方式构建,包含新闻、社交媒体、医学记录等多个领域的数据,标注了各种实体类型,适用于实体识别和命名实体识别任务。这些数据集在构建过程中,注重实体边界的准确标注和实体类型的细致分类。
使用方法
用户可以通过数据集中的README文件和提供的链接获取数据集,并根据具体的研究需求进行使用。部分数据集可能因为版权限制不能直接获取,但提供了转换至CoNLL 2003格式的代码。用户需要遵循相应数据集的使用条款和许可协议。
背景与挑战
背景概述
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d等数据集均为实体识别领域的重要资源。它们涵盖了新闻、社交媒体、医学、法律、金融等多个领域,为实体识别任务提供了丰富的标注数据。这些数据集的创建时间不等,最早的如CONLL 2003可以追溯到2003年,而最新的如re3d数据集则是在2017年发布。它们由多个研究机构或个人贡献,如NIST、LDC、MIT等,对相关领域的研究产生了深远的影响。
当前挑战
实体识别领域面临的挑战包括:1)如何准确识别不同类型的实体,尤其是在跨领域的数据中;2)如何处理实体识别中的歧义和模糊性;3)如何构建高效、可扩展的实体识别系统。在数据集构建过程中遇到的挑战则包括:1)数据的标注质量保证;2)数据集的多样性和代表性;3)跨语言和跨领域的实体识别问题。
常用场景
经典使用场景
CONLL 2003数据集是命名实体识别领域的一个经典使用场景,它被广泛用于训练和评估实体识别模型。该数据集包含了新闻领域的文本,标注了多种实体类型,是研究命名实体识别的基础资源。
解决学术问题
该数据集解决了学术研究中如何准确识别文本中命名实体的问题,对于理解文本内容、提取关键信息以及构建知识图谱等任务具有重要意义。它帮助研究者改进实体识别算法,提高模型的准确性和鲁棒性。
实际应用
在实际应用中,CONLL 2003数据集可用于新闻聚合、信息抽取、问答系统、搜索引擎优化等领域,通过识别文本中的命名实体,可以提升这些应用的数据处理能力和智能化水平。
数据集最近研究
最新研究方向
CONLL 2003、NIST-IEER、MUC-6、OntoNotes 5等数据集为实体识别和命名实体识别任务提供了丰富的资源。近期研究主要关注于深度学习技术在实体识别中的应用,如使用字符级深度双向LSTM进行瑞典健康记录中的命名实体识别。此外,多语言实体识别也是研究的热点,例如从维基百科学习多语言命名实体识别。这些研究不仅提升了实体识别的准确性和效率,也为跨语言信息处理和语义理解提供了重要支持。
以上内容由遇见数据集搜集并总结生成



