five

entity-recognition-datasets

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/juand-r/entity-recognition-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含多个领域的实体识别数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别任务。

This repository encompasses a collection of entity recognition datasets spanning multiple domains. These datasets are annotated with a variety of entity types, making them suitable for tasks related to entity recognition and named entity recognition.
创建时间:
2018-09-02
原始信息汇总

数据集概述

本数据集包含多个领域的实体识别和命名实体识别(NER)任务相关的数据集。这些数据集已被标注了多种实体类型,适用于不同语言和领域的研究。

主要数据集列表

英语NER数据集

数据集 领域 许可证 参考文献 可用性
CONLL 2003 新闻 DUA Sang and Meulder, 2003 链接1, 链接2, 链接3
NIST-IEER 新闻 None NIST 1999 IE-ER NLTK数据
MUC-6 新闻 LDC Grishman and Sundheim, 1996 LDC 2003T13
OntoNotes 5 多种 LDC Weischedel et al., 2013 LDC 2013T19
BBN 多种 LDC Weischedel and Brunstein, 2005 LDC 2005T33
GMB-1.0.0 多种 None Bos et al., 2017 链接
GUM-3.1.0 Wiki 多种(*2) Zeldes, 2016 包含
wikigold Wikipedia CC-BY 4.0 Balasuriya et al., 2009 包含
Ritter Twitter None Ritter et al., 2011 无分割, 训练/测试/开发分割
BTC Twitter CC-BY 4.0 Derczynski et al., 2016 包含
WNUT17 社交媒体 CC-BY 4.0 Derczynski et al., 2017 包含
i2b2-2006 医学 DUA Uzuner et al., 2007 链接
i2b2-2014 医学 DUA Stubbs et al., 2015 链接
CADEC 医学 CSIRO Karimi et al., 2015 链接
AnEM 解剖学 CC-BY-SA 3.0 Ohta et al., 2012 包含
MITRestaurant 查询 None Liu et al., 2013a 链接
MITMovie 查询 None Liu et al., 2013b 链接
MalwareTextDB 恶意软件 None Lim et al., 2017 链接
re3d 国防 多种(*1) DSTL, 2017 包含
SEC-filings 金融 CC-BY 3.0 Alvarado et al., 2015 包含
Assembly 机器人 X Costa et al., 2017 X
WikiNEuRal Wikipedia CC BY-SA-NC 4.0 Tedeschi et al., 2021 链接
MultiNERD Wikipedia CC BY-SA-NC 4.0 Tedeschi et al., 2022 链接
HIPE-2022 历史 CC BY-SA-NC 4.0 Ehrmann et al., 2022 链接
Music-NER 音乐 MIT Epure and Hennequin, 2023 链接
WIESP2022-NER 天体物理学 CC BY-SA-NC 4.0 Grezes et al., 2022 链接
NNE 新闻 CC 4.0 / LDC Ringland et al., 2019 链接
WorldWide 新闻 CC BY-SA-NC 4.0 Shan et al., 2023 链接, 论文

许可证说明

  • re3d 包含多个数据集,具有不同的许可证,包括CC-BY-SA 3.0、CC BY-NC 3.0、CC BY 3.0 AU、公共领域、UK Open Government Licence v3.0等。
  • GUM 3.1.0 由三个数据集组成,许可证包括CC-BY 3.0、CC-BY-SA 3.0和CC-BY-NC-SA 3.0,注释则使用CC-BY 4.0许可证。

其他语言NER数据集

数据集详情请参考原文档中的其他语言NER数据集部分。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为‘entity-recognition-datasets’,其构建方式主要通过收集和整合来自多个领域的标注数据,涵盖了新闻、社交媒体、医学、法律、金融等多个领域。这些数据集经过精心标注,包含了多种实体类型,适用于实体识别和命名实体识别(NER)任务。数据集的构建过程中,部分数据由于版权限制未能直接共享,但提供了获取这些数据的途径以及必要的转换代码,以确保数据能够被标准化处理,如转换为CoNLL 2003格式。
特点
该数据集的显著特点在于其广泛的应用领域和多样化的实体类型。数据集不仅包含了常见的新闻和社交媒体文本,还涵盖了医学、法律、金融等专业领域的文本,为不同领域的实体识别研究提供了丰富的资源。此外,数据集中的部分数据集具有多语言支持,进一步扩展了其应用范围。数据集的多样性和广泛性使其成为实体识别和命名实体识别任务的宝贵资源。
使用方法
使用该数据集时,用户可以通过提供的链接获取数据,并根据需要进行格式转换。对于无法直接获取的数据,数据集提供了详细的获取指南和转换代码。用户可以根据具体的任务需求选择合适的数据集进行训练和测试。此外,数据集还提供了多语言支持,用户可以利用这些资源进行跨语言的实体识别研究。数据集的使用方法灵活多样,适用于各种实体识别和命名实体识别任务。
背景与挑战
背景概述
实体识别数据集(entity-recognition-datasets)是一个汇集了多个领域标注实体类型的数据集,主要用于实体识别和命名实体识别(NER)任务。该数据集由多个研究人员和机构共同创建,涵盖了从2003年至今的多种语言和领域的数据。其核心研究问题是如何在不同语境和领域中准确识别和分类实体,这对于自然语言处理(NLP)领域的发展具有重要意义。该数据集的创建不仅推动了NER技术的进步,也为跨语言和跨领域的实体识别研究提供了宝贵的资源。
当前挑战
实体识别数据集面临的挑战主要集中在数据的多领域和多语言特性上。首先,不同领域的数据具有独特的实体类型和语境,这增加了模型泛化能力的难度。其次,多语言数据集的构建需要克服语言间的差异和标注标准的不一致性。此外,数据集的更新和维护也是一个持续的挑战,尤其是在新数据不断涌现的情况下,如何保持数据集的时效性和全面性是一个重要问题。最后,数据集的版权和许可问题也增加了数据集管理的复杂性,确保合法使用和共享数据是当前面临的一大挑战。
常用场景
经典使用场景
在自然语言处理领域,'entity-recognition-datasets'数据集被广泛应用于命名实体识别(NER)任务。该数据集涵盖了多个领域,包括新闻、社交媒体、医学、法律等,为研究者提供了丰富的标注数据。经典的使用场景包括训练和评估NER模型,这些模型能够自动识别文本中的实体,如人名、地名、组织名等,从而提升信息抽取和文本理解的准确性。
衍生相关工作
基于'entity-recognition-datasets'数据集,研究者们开展了多项经典工作。例如,Tabassum等人利用该数据集研究了StackOverflow中的代码和命名实体识别问题,提出了新的识别方法。LitBank项目则专注于文学作品中的实体识别,为文学分析提供了新的工具。此外,NNE数据集的开发进一步推动了嵌套命名实体识别的研究,扩展了NER技术的应用范围。
数据集最近研究
最新研究方向
近年来,实体识别数据集在多个领域的前沿研究中扮演着关键角色。特别是在多语言实体识别(NER)任务中,研究者们致力于开发跨语言的模型,以提高在不同语言环境下的识别准确性。此外,随着社交媒体和医疗领域数据的快速增长,针对这些特定领域的实体识别研究也日益受到关注。例如,Twitter和医疗文本的NER数据集的开发,为情感分析和医疗信息提取提供了新的工具。同时,历史文档和法律文本的NER研究也在不断深化,以应对复杂文本结构和多样化实体类型的挑战。这些研究不仅推动了实体识别技术的发展,也为跨学科应用提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作