NER-datasets
收藏github2020-03-31 更新2024-05-31 收录
下载链接:
https://github.com/smaheshacharya/NER-datasets
下载链接
链接失效反馈官方服务:
资源简介:
用于训练不同语言(葡萄牙语、德语、荷兰语、法语、英语)命名实体识别监督分类器的数据集
A dataset designed for training supervised classifiers for Named Entity Recognition (NER) across multiple languages, including Portuguese, German, Dutch, French, and English.
创建时间:
2019-11-21
原始信息汇总
数据集概述
葡萄牙语数据集
- HAREM
- WikiNER
- Paramopama
- leNER-br
- Peres2017
德语数据集
- GermEval2014
- Europeana Newspapers
荷兰语数据集
- Europeana Newspapers
法语数据集
- Europeana Newspapers
英语数据集
- CONLL2003
- W-NUT2017 (Workshop on Noisy User-generated Text: Emerging and Rare entity recognition)
搜集汇总
数据集介绍

构建方式
NER-datasets是一个为监督命名实体识别分类器训练提供数据集的资源库。该数据集的构建通过收集多种语言的标注语料库进行,涵盖了葡萄牙语、德语、荷兰语、法语及英语等语种,包含了HAREM、WikiNER、Paramopama、leNER-br、Peres2017、GermEval2014、Europeana Newspapers、CONLL2003和W-NUT2017等多个子数据集,旨在为研究者提供丰富多样的训练和评估资源。
特点
该数据集的特点在于其语言多样性,满足了不同语种在命名实体识别领域的需求。各个子数据集均经过专业的标注,实体类型丰富,为实体识别任务提供了高质量的训练数据。此外,数据集还持续更新,保证了其时效性和可用性。
使用方法
使用NER-datasets时,用户可以根据需求选择相应的语言和子数据集。数据集通常以标准的文本格式存储,用户可以下载后直接用于模型训练或评估。数据集的README文件中提供了详细的子数据集描述和链接,便于用户快速定位和获取所需资源。
背景与挑战
背景概述
NER-datasets是一组用于训练命名实体识别(NER)监督分类器的数据集,涵盖了葡萄牙语、德语、荷兰语、法语和英语等不同语言。该数据集的创建旨在为自然语言处理领域的研究者提供多元化的训练资源,以促进NER技术的发展与应用。自推出以来,NER-datasets已成为相关领域研究的重要基础资源,受到了广泛的关注和应用。该数据集集合了多位研究者的智慧,例如葡萄牙语部分包含了HAREM、WikiNER等数据集,而英语部分则有CONLL2003和W-NUT2017等知名数据集,这些数据集的构建时间为不同年份,反映了NER技术在时间跨度上的演变和发展。
当前挑战
在构建NER-datasets的过程中,研究者面临了多种挑战。首先,多语言数据的收集和标注需要克服语言差异带来的困难,同时保证数据的质量和一致性。其次,数据集在构建过程中需要解决实体类别的一致性问题,以及如何处理不同领域和文本类型的实体识别问题。此外,所解决的领域问题,如CONLL2003数据集在推动基于英语的NER研究上发挥了重要作用,但随着网络语言的多样化和复杂性增加,如W-NUT2017所针对的噪音用户生成文本中的新兴和罕见实体识别问题,为NER技术提出了新的挑战。
常用场景
经典使用场景
在自然语言处理领域中,NER-datasets作为训练命名实体识别(NER)监督分类器的数据集集合,其经典使用场景主要在于为机器学习模型提供多样化的语言环境下的标注文本数据。这些数据集涵盖了葡萄牙语、德语、荷兰语、法语和英语等不同语种,为研究者提供了丰富的跨语言训练资源。
实际应用
NER-datasets的实际应用场景广泛,可用于构建信息抽取系统,如从新闻报道、社交媒体文本中自动识别人名、地点、组织等实体,这对于知识图谱构建、语义搜索引擎优化等实际应用至关重要。
衍生相关工作
基于NER-datasets的研究衍生出了众多相关工作,包括跨语言NER模型的比较研究、实体识别模型的性能评估方法、以及结合不同语言特点的定制化模型设计等,这些工作进一步推动了实体识别领域的发展。
以上内容由遇见数据集搜集并总结生成



