entity-recognition-datasets
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/juand-r/entity-recognition-datasets
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含多个领域的实体识别数据集,这些数据集被标注了多种实体类型,适用于实体识别和命名实体识别任务。
This repository encompasses a collection of entity recognition datasets spanning multiple domains. These datasets are annotated with a variety of entity types, making them suitable for tasks related to entity recognition and named entity recognition.
创建时间:
2018-09-02
原始信息汇总
数据集概述
本数据集包含多个领域的实体识别和命名实体识别(NER)任务相关的数据集。这些数据集已被标注了多种实体类型,适用于不同语言和领域的研究。
主要数据集列表
英语NER数据集
| 数据集 | 领域 | 许可证 | 参考文献 | 可用性 |
|---|---|---|---|---|
| CONLL 2003 | 新闻 | DUA | Sang and Meulder, 2003 | 链接1, 链接2, 链接3 |
| NIST-IEER | 新闻 | None | NIST 1999 IE-ER | NLTK数据 |
| MUC-6 | 新闻 | LDC | Grishman and Sundheim, 1996 | LDC 2003T13 |
| OntoNotes 5 | 多种 | LDC | Weischedel et al., 2013 | LDC 2013T19 |
| BBN | 多种 | LDC | Weischedel and Brunstein, 2005 | LDC 2005T33 |
| GMB-1.0.0 | 多种 | None | Bos et al., 2017 | 链接 |
| GUM-3.1.0 | Wiki | 多种(*2) | Zeldes, 2016 | 包含 |
| wikigold | Wikipedia | CC-BY 4.0 | Balasuriya et al., 2009 | 包含 |
| Ritter | None | Ritter et al., 2011 | 无分割, 训练/测试/开发分割 | |
| BTC | CC-BY 4.0 | Derczynski et al., 2016 | 包含 | |
| WNUT17 | 社交媒体 | CC-BY 4.0 | Derczynski et al., 2017 | 包含 |
| i2b2-2006 | 医学 | DUA | Uzuner et al., 2007 | 链接 |
| i2b2-2014 | 医学 | DUA | Stubbs et al., 2015 | 链接 |
| CADEC | 医学 | CSIRO | Karimi et al., 2015 | 链接 |
| AnEM | 解剖学 | CC-BY-SA 3.0 | Ohta et al., 2012 | 包含 |
| MITRestaurant | 查询 | None | Liu et al., 2013a | 链接 |
| MITMovie | 查询 | None | Liu et al., 2013b | 链接 |
| MalwareTextDB | 恶意软件 | None | Lim et al., 2017 | 链接 |
| re3d | 国防 | 多种(*1) | DSTL, 2017 | 包含 |
| SEC-filings | 金融 | CC-BY 3.0 | Alvarado et al., 2015 | 包含 |
| Assembly | 机器人 | X | Costa et al., 2017 | X |
| WikiNEuRal | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2021 | 链接 |
| MultiNERD | Wikipedia | CC BY-SA-NC 4.0 | Tedeschi et al., 2022 | 链接 |
| HIPE-2022 | 历史 | CC BY-SA-NC 4.0 | Ehrmann et al., 2022 | 链接 |
| Music-NER | 音乐 | MIT | Epure and Hennequin, 2023 | 链接 |
| WIESP2022-NER | 天体物理学 | CC BY-SA-NC 4.0 | Grezes et al., 2022 | 链接 |
| NNE | 新闻 | CC 4.0 / LDC | Ringland et al., 2019 | 链接 |
| WorldWide | 新闻 | CC BY-SA-NC 4.0 | Shan et al., 2023 | 链接, 论文 |
许可证说明
- re3d 包含多个数据集,具有不同的许可证,包括CC-BY-SA 3.0、CC BY-NC 3.0、CC BY 3.0 AU、公共领域、UK Open Government Licence v3.0等。
- GUM 3.1.0 由三个数据集组成,许可证包括CC-BY 3.0、CC-BY-SA 3.0和CC-BY-NC-SA 3.0,注释则使用CC-BY 4.0许可证。
其他语言NER数据集
数据集详情请参考原文档中的其他语言NER数据集部分。
搜集汇总
数据集介绍

构建方式
该数据集名为‘entity-recognition-datasets’,其构建方式主要通过收集和整合来自多个领域的标注数据,涵盖了新闻、社交媒体、医学、法律、金融等多个领域。这些数据集经过精心标注,包含了多种实体类型,适用于实体识别和命名实体识别(NER)任务。数据集的构建过程中,部分数据由于版权限制未能直接共享,但提供了获取这些数据的途径以及必要的转换代码,以确保数据能够被标准化处理,如转换为CoNLL 2003格式。
特点
该数据集的显著特点在于其广泛的应用领域和多样化的实体类型。数据集不仅包含了常见的新闻和社交媒体文本,还涵盖了医学、法律、金融等专业领域的文本,为不同领域的实体识别研究提供了丰富的资源。此外,数据集中的部分数据集具有多语言支持,进一步扩展了其应用范围。数据集的多样性和广泛性使其成为实体识别和命名实体识别任务的宝贵资源。
使用方法
使用该数据集时,用户可以通过提供的链接获取数据,并根据需要进行格式转换。对于无法直接获取的数据,数据集提供了详细的获取指南和转换代码。用户可以根据具体的任务需求选择合适的数据集进行训练和测试。此外,数据集还提供了多语言支持,用户可以利用这些资源进行跨语言的实体识别研究。数据集的使用方法灵活多样,适用于各种实体识别和命名实体识别任务。
背景与挑战
背景概述
实体识别数据集(entity-recognition-datasets)是一个汇集了多个领域标注实体类型的数据集,主要用于实体识别和命名实体识别(NER)任务。该数据集由多个研究人员和机构共同创建,涵盖了从2003年至今的多种语言和领域的数据。其核心研究问题是如何在不同语境和领域中准确识别和分类实体,这对于自然语言处理(NLP)领域的发展具有重要意义。该数据集的创建不仅推动了NER技术的进步,也为跨语言和跨领域的实体识别研究提供了宝贵的资源。
当前挑战
实体识别数据集面临的挑战主要集中在数据的多领域和多语言特性上。首先,不同领域的数据具有独特的实体类型和语境,这增加了模型泛化能力的难度。其次,多语言数据集的构建需要克服语言间的差异和标注标准的不一致性。此外,数据集的更新和维护也是一个持续的挑战,尤其是在新数据不断涌现的情况下,如何保持数据集的时效性和全面性是一个重要问题。最后,数据集的版权和许可问题也增加了数据集管理的复杂性,确保合法使用和共享数据是当前面临的一大挑战。
常用场景
经典使用场景
在自然语言处理领域,'entity-recognition-datasets'数据集被广泛应用于命名实体识别(NER)任务。该数据集涵盖了多个领域,包括新闻、社交媒体、医学、法律等,为研究者提供了丰富的标注数据。经典的使用场景包括训练和评估NER模型,这些模型能够自动识别文本中的实体,如人名、地名、组织名等,从而提升信息抽取和文本理解的准确性。
衍生相关工作
基于'entity-recognition-datasets'数据集,研究者们开展了多项经典工作。例如,Tabassum等人利用该数据集研究了StackOverflow中的代码和命名实体识别问题,提出了新的识别方法。LitBank项目则专注于文学作品中的实体识别,为文学分析提供了新的工具。此外,NNE数据集的开发进一步推动了嵌套命名实体识别的研究,扩展了NER技术的应用范围。
数据集最近研究
最新研究方向
近年来,实体识别数据集在多个领域的前沿研究中扮演着关键角色。特别是在多语言实体识别(NER)任务中,研究者们致力于开发跨语言的模型,以提高在不同语言环境下的识别准确性。此外,随着社交媒体和医疗领域数据的快速增长,针对这些特定领域的实体识别研究也日益受到关注。例如,Twitter和医疗文本的NER数据集的开发,为情感分析和医疗信息提取提供了新的工具。同时,历史文档和法律文本的NER研究也在不断深化,以应对复杂文本结构和多样化实体类型的挑战。这些研究不仅推动了实体识别技术的发展,也为跨学科应用提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



