CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d
收藏github2019-11-13 更新2024-05-31 收录
下载链接:
https://github.com/luochao1210/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。数据集涵盖了新闻、医疗、社交媒体、查询等多个领域,并包括了多种语言和实体类型。
This repository contains datasets from multiple domains, annotated with various entity types, suitable for entity recognition and named entity recognition (NER) tasks. The datasets cover a wide range of fields including news, healthcare, social media, and queries, and include multiple languages and entity types.
创建时间:
2019-11-13
原始信息汇总
数据集概述
英文NER数据集
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 易于获取 |
| NIST-IEER | 新闻 | 无 | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | 无 | Bos et al., 2017 | http://gmb.let.rug.nl/data.php |
| GUM-3.1.0 | Wiki | 多种 | Zeldes, 2016 | 包含在此 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含在此 |
| Ritter | 无 | Ritter et al., 2011 | 无分割,训练/测试/开发分割 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含在此 | |
| WNUT17 | 社交媒体 | CC-BY 4.0 | Derczynski et al., 2017 | 包含在此 |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | http://www.i2b2.org |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | http://www.i2b2.org |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | http://data.csiro.au |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含在此 |
| MITRestaurant | 查询 | 无 | Liu et al., 2013a | http://groups.csail.mit.edu/sls/ |
| MITMovie | 查询 | 无 | Liu et al., 2013b | http://groups.csail.mit.edu/sls/ |
| MalwareTextDB | 恶意软件 | 无 | Lim et al., 2017 | http://www.statnlp.org/ |
| re3d | 国防 | 多种 | DSTL, 2017 | 包含在此 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含在此 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
其他语言NER数据集
- 详细信息未在此README文件中列出,需参考其他部分。
许可证信息
- re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证。
- GUM 3.1.0 包含三个数据集,许可证分别为CC-BY 3.0, CC-BY-SA 3.0和CC-BY-NC-SA 3.0。
更多详细许可证信息可在相应子目录中找到。
搜集汇总
数据集介绍

构建方式
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5等数据集的构建主要依托于新闻、社交媒体等多种领域的文本,通过人工标注的方式对文本中的实体进行分类,形成了具有不同许可证的多个子数据集。每个数据集都遵循特定的构建流程,如CONLL 2003采用DUA许可证,NIST-IEER未明确许可证,MUC-6采用LDC许可证等,以此确保数据集的质量和可用性。
使用方法
用户可以根据自己的研究需求,从GitHub仓库中获取数据集的链接,并根据相应的许可证规定进行使用。部分数据集直接提供了转换为CoNLL 2003格式的代码,方便用户进行实体识别任务。此外,用户还可以参考数据集的参考文献,以更好地理解和利用这些资源。
背景与挑战
背景概述
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d等数据集,均为自然语言处理领域中的实体识别任务提供了丰富的注释数据。这些数据集的创建时间、主要研究人员或机构、核心研究问题以及对相关领域的影响力各不相同,但共同为推动实体识别技术的发展作出了重要贡献。
当前挑战
实体识别任务面临的挑战主要包括:1)所解决的领域问题,如CONLL 2003数据集在新闻领域的实体识别挑战;2)构建过程中的挑战,如数据集的标注一致性、跨领域适应性以及实体类型的多样性等。这些挑战推动了实体识别技术的不断创新和进步。
常用场景
经典使用场景
CONLL 2003数据集是命名实体识别领域的一个经典资源,广泛应用于训练和评估命名实体识别模型。它包含了新闻领域的文本数据,标注了多种实体类型,是研究命名实体识别的基础数据集。
解决学术问题
该数据集解决了学术研究中如何准确识别文本中的命名实体的问题,对于理解文本内容、构建知识图谱以及信息抽取等任务具有重要的意义和影响。
实际应用
在实际应用中,CONLL 2003数据集被用于开发信息检索系统、自动摘要、问答系统等,提高了处理自然语言数据的效率。
数据集最近研究
最新研究方向
CONLL 2003、NIST-IEER、MUC-6等数据集为命名实体识别任务提供了多样化的领域背景和丰富的实体类型。近年来,研究者在此基础上,不断探索细粒度实体识别、跨语言实体识别、实体关系抽取等前沿研究方向,以期提升实体识别的准确性和实用性。这些研究不仅推动了命名实体识别技术的进步,也为自然语言处理领域的发展做出了重要贡献。
以上内容由遇见数据集搜集并总结生成



