entity-recognition-datasets

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/juand-r/entity-recognition-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含多个领域的实体识别数据集，这些数据集被标注了多种实体类型，适用于实体识别和命名实体识别任务。

This repository encompasses a collection of entity recognition datasets spanning multiple domains. These datasets are annotated with a variety of entity types, making them suitable for tasks related to entity recognition and named entity recognition.

创建时间：

2018-09-02

原始信息汇总

数据集概述

本数据集包含多个领域的实体识别和命名实体识别（NER）任务相关的数据集。这些数据集已被标注了多种实体类型，适用于不同语言和领域的研究。

主要数据集列表

英语NER数据集

数据集	领域	许可证	参考文献	可用性
CONLL 2003	新闻	DUA	Sang and Meulder, 2003	链接1, 链接2, 链接3
NIST-IEER	新闻	None	NIST 1999 IE-ER	NLTK数据
MUC-6	新闻	LDC	Grishman and Sundheim, 1996	LDC 2003T13
OntoNotes 5	多种	LDC	Weischedel et al., 2013	LDC 2013T19
BBN	多种	LDC	Weischedel and Brunstein, 2005	LDC 2005T33
GMB-1.0.0	多种	None	Bos et al., 2017	链接
GUM-3.1.0	Wiki	多种(*2)	Zeldes, 2016	包含
wikigold	Wikipedia	CC-BY 4.0	Balasuriya et al., 2009	包含
Ritter	Twitter	None	Ritter et al., 2011	无分割, 训练/测试/开发分割
BTC	Twitter	CC-BY 4.0	Derczynski et al., 2016	包含
WNUT17	社交媒体	CC-BY 4.0	Derczynski et al., 2017	包含
i2b2-2006	医学	DUA	Uzuner et al., 2007	链接
i2b2-2014	医学	DUA	Stubbs et al., 2015	链接
CADEC	医学	CSIRO	Karimi et al., 2015	链接
AnEM	解剖学	CC-BY-SA 3.0	Ohta et al., 2012	包含
MITRestaurant	查询	None	Liu et al., 2013a	链接
MITMovie	查询	None	Liu et al., 2013b	链接
MalwareTextDB	恶意软件	None	Lim et al., 2017	链接
re3d	国防	多种(*1)	DSTL, 2017	包含
SEC-filings	金融	CC-BY 3.0	Alvarado et al., 2015	包含
Assembly	机器人	X	Costa et al., 2017	X
WikiNEuRal	Wikipedia	CC BY-SA-NC 4.0	Tedeschi et al., 2021	链接
MultiNERD	Wikipedia	CC BY-SA-NC 4.0	Tedeschi et al., 2022	链接
HIPE-2022	历史	CC BY-SA-NC 4.0	Ehrmann et al., 2022	链接
Music-NER	音乐	MIT	Epure and Hennequin, 2023	链接
WIESP2022-NER	天体物理学	CC BY-SA-NC 4.0	Grezes et al., 2022	链接
NNE	新闻	CC 4.0 / LDC	Ringland et al., 2019	链接
WorldWide	新闻	CC BY-SA-NC 4.0	Shan et al., 2023	链接, 论文

许可证说明

re3d 包含多个数据集，具有不同的许可证，包括CC-BY-SA 3.0、CC BY-NC 3.0、CC BY 3.0 AU、公共领域、UK Open Government Licence v3.0等。
GUM 3.1.0 由三个数据集组成，许可证包括CC-BY 3.0、CC-BY-SA 3.0和CC-BY-NC-SA 3.0，注释则使用CC-BY 4.0许可证。

其他语言NER数据集

数据集详情请参考原文档中的其他语言NER数据集部分。

搜集汇总

数据集介绍

构建方式

该数据集名为‘entity-recognition-datasets’，其构建方式主要通过收集和整合来自多个领域的标注数据，涵盖了新闻、社交媒体、医学、法律、金融等多个领域。这些数据集经过精心标注，包含了多种实体类型，适用于实体识别和命名实体识别（NER）任务。数据集的构建过程中，部分数据由于版权限制未能直接共享，但提供了获取这些数据的途径以及必要的转换代码，以确保数据能够被标准化处理，如转换为CoNLL 2003格式。

特点

该数据集的显著特点在于其广泛的应用领域和多样化的实体类型。数据集不仅包含了常见的新闻和社交媒体文本，还涵盖了医学、法律、金融等专业领域的文本，为不同领域的实体识别研究提供了丰富的资源。此外，数据集中的部分数据集具有多语言支持，进一步扩展了其应用范围。数据集的多样性和广泛性使其成为实体识别和命名实体识别任务的宝贵资源。

使用方法

使用该数据集时，用户可以通过提供的链接获取数据，并根据需要进行格式转换。对于无法直接获取的数据，数据集提供了详细的获取指南和转换代码。用户可以根据具体的任务需求选择合适的数据集进行训练和测试。此外，数据集还提供了多语言支持，用户可以利用这些资源进行跨语言的实体识别研究。数据集的使用方法灵活多样，适用于各种实体识别和命名实体识别任务。

背景与挑战

背景概述

实体识别数据集（entity-recognition-datasets）是一个汇集了多个领域标注实体类型的数据集，主要用于实体识别和命名实体识别（NER）任务。该数据集由多个研究人员和机构共同创建，涵盖了从2003年至今的多种语言和领域的数据。其核心研究问题是如何在不同语境和领域中准确识别和分类实体，这对于自然语言处理（NLP）领域的发展具有重要意义。该数据集的创建不仅推动了NER技术的进步，也为跨语言和跨领域的实体识别研究提供了宝贵的资源。

当前挑战

实体识别数据集面临的挑战主要集中在数据的多领域和多语言特性上。首先，不同领域的数据具有独特的实体类型和语境，这增加了模型泛化能力的难度。其次，多语言数据集的构建需要克服语言间的差异和标注标准的不一致性。此外，数据集的更新和维护也是一个持续的挑战，尤其是在新数据不断涌现的情况下，如何保持数据集的时效性和全面性是一个重要问题。最后，数据集的版权和许可问题也增加了数据集管理的复杂性，确保合法使用和共享数据是当前面临的一大挑战。

常用场景

经典使用场景

在自然语言处理领域，'entity-recognition-datasets'数据集被广泛应用于命名实体识别（NER）任务。该数据集涵盖了多个领域，包括新闻、社交媒体、医学、法律等，为研究者提供了丰富的标注数据。经典的使用场景包括训练和评估NER模型，这些模型能够自动识别文本中的实体，如人名、地名、组织名等，从而提升信息抽取和文本理解的准确性。

衍生相关工作

基于'entity-recognition-datasets'数据集，研究者们开展了多项经典工作。例如，Tabassum等人利用该数据集研究了StackOverflow中的代码和命名实体识别问题，提出了新的识别方法。LitBank项目则专注于文学作品中的实体识别，为文学分析提供了新的工具。此外，NNE数据集的开发进一步推动了嵌套命名实体识别的研究，扩展了NER技术的应用范围。

数据集最近研究