five

CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d

收藏
github2020-03-11 更新2024-05-31 收录
下载链接:
https://github.com/arita37/entity-recognition-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含多个领域的数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别(NER)任务。

This repository encompasses datasets across multiple domains, each annotated with various entity types, making them suitable for entity recognition and named entity recognition (NER) tasks.
创建时间:
2020-03-11
原始信息汇总

数据集概述

本数据集包含多个领域的实体识别和命名实体识别(NER)任务相关的数据集。以下是英文NER数据集的详细列表:

英文NER数据集列表

数据集 领域 许可证 参考文献 可用性
CONLL 2003 新闻 DUA Sang and Meulder, 2003 易于获取
NIST-IEER 新闻 None NIST 1999 IE-ER NLTK数据
MUC-6 新闻 LDC Grishman and Sundheim, 1996 LDC 2003T13
OntoNotes 5 多种 LDC Weischedel et al., 2013 LDC 2013T19
BBN 多种 LDC Weischedel and Brunstein, 2005 LDC 2005T33
GMB-1.0.0 多种 None Bos et al., 2017 http://gmb.let.rug.nl/data.php
GUM-3.1.0 Wiki 多种 Zeldes, 2016 包含在此
wikigold Wikipedia CC-BY 4.0 Balasuriya et al., 2009 包含在此
Ritter Twitter None Ritter et al., 2011 无分割,训练/测试/开发分割
BTC Twitter CC-BY 4.0 Derczynski et al., 2016 包含在此
WNUT17 社交媒体 CC-BY 4.0 Derczynski et al., 2017 包含在此
i2b2-2006 医学 DUA Uzuner et al., 2007 http://www.i2b2.org
i2b2-2014 医学 DUA Stubbs et al., 2015 http://www.i2b2.org
CADEC 医学 CSIRO Karimi et al., 2015 http://data.csiro.au
AnEM 解剖学 CC-BY-SA 3.0 Ohta et al., 2012 包含在此
MITRestaurant 查询 None Liu et al., 2013a http://groups.csail.mit.edu/sls/downloads/restaurant/
MITMovie 查询 None Liu et al., 2013b http://groups.csail.mit.edu/sls/downloads/movie/
MalwareTextDB 恶意软件 None Lim et al., 2017 http://www.statnlp.org/
re3d 防御 多种 DSTL, 2017 包含在此
SEC-filings 金融 CC-BY 3.0 Alvarado et al., 2015 包含在此
Assembly 机器人 X Costa et al., 2017 X

许可证信息

  • re3d ("Relationship and Entity Extraction Evaluation Dataset") 包含多个数据集,具有不同的许可证:

    • CC-BY-SA 3.0 (Wikipedia dataset)
    • CC BY-NC 3.0 (BBC_Online dataset)
    • CC BY 3.0 AU (Australian_Department_of_Foreign_Affairs dataset)
    • 公共领域 (US_State_Department dataset, CENTCOM dataset)
    • UK Open Government Licence v3.0 (UK_Government dataset)
    • Delegation_of_the_European_Union_to_Syria: 见 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
  • GUM 3.1.0 包含三个数据集,许可证为 CC-BY 3.0, CC-BY-SA 3.0 和 CC-BY-NC-SA 3.0。注释的许可证为 CC-BY 4.0。

更多详细的许可证信息可在相应的子目录中找到。

搜集汇总
数据集介绍
main_image_url
构建方式
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5等数据集主要通过手工标注的方式构建,包含新闻、社交媒体、医学记录等多个领域的数据,标注了各种实体类型,适用于实体识别和命名实体识别任务。这些数据集在构建过程中,注重实体边界的准确标注和实体类型的细致分类。
使用方法
用户可以通过数据集中的README文件和提供的链接获取数据集,并根据具体的研究需求进行使用。部分数据集可能因为版权限制不能直接获取,但提供了转换至CoNLL 2003格式的代码。用户需要遵循相应数据集的使用条款和许可协议。
背景与挑战
背景概述
CONLL 2003, NIST-IEER, MUC-6, OntoNotes 5, BBN, GMB-1.0.0, GUM-3.1.0, wikigold, Ritter, BTC, WNUT17, i2b2-2006, i2b2-2014, CADEC, AnEM, MITRestaurant, MITMovie, MalwareTextDB, re3d等数据集均为实体识别领域的重要资源。它们涵盖了新闻、社交媒体、医学、法律、金融等多个领域,为实体识别任务提供了丰富的标注数据。这些数据集的创建时间不等,最早的如CONLL 2003可以追溯到2003年,而最新的如re3d数据集则是在2017年发布。它们由多个研究机构或个人贡献,如NIST、LDC、MIT等,对相关领域的研究产生了深远的影响。
当前挑战
实体识别领域面临的挑战包括:1)如何准确识别不同类型的实体,尤其是在跨领域的数据中;2)如何处理实体识别中的歧义和模糊性;3)如何构建高效、可扩展的实体识别系统。在数据集构建过程中遇到的挑战则包括:1)数据的标注质量保证;2)数据集的多样性和代表性;3)跨语言和跨领域的实体识别问题。
常用场景
经典使用场景
CONLL 2003数据集是命名实体识别领域的一个经典使用场景,它被广泛用于训练和评估实体识别模型。该数据集包含了新闻领域的文本,标注了多种实体类型,是研究命名实体识别的基础资源。
解决学术问题
该数据集解决了学术研究中如何准确识别文本中命名实体的问题,对于理解文本内容、提取关键信息以及构建知识图谱等任务具有重要意义。它帮助研究者改进实体识别算法,提高模型的准确性和鲁棒性。
实际应用
在实际应用中,CONLL 2003数据集可用于新闻聚合、信息抽取、问答系统、搜索引擎优化等领域,通过识别文本中的命名实体,可以提升这些应用的数据处理能力和智能化水平。
数据集最近研究
最新研究方向
CONLL 2003、NIST-IEER、MUC-6、OntoNotes 5等数据集为实体识别和命名实体识别任务提供了丰富的资源。近期研究主要关注于深度学习技术在实体识别中的应用,如使用字符级深度双向LSTM进行瑞典健康记录中的命名实体识别。此外,多语言实体识别也是研究的热点,例如从维基百科学习多语言命名实体识别。这些研究不仅提升了实体识别的准确性和效率,也为跨语言信息处理和语义理解提供了重要支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务