five

mnaguib/WikiNER

收藏
Hugging Face2023-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mnaguib/WikiNER
下载链接
链接失效反馈
官方服务:
资源简介:
WikiNER是一个多语言的NER(命名实体识别)数据集,基于2010年末的Wikipedia快照,自动标注了指向人物、地点或组织的超链接。

WikiNER是一个多语言的NER(命名实体识别)数据集,基于2010年末的Wikipedia快照,自动标注了指向人物、地点或组织的超链接。
提供机构:
mnaguib
原始信息汇总

数据集概述

数据集名称

WikiNER

数据集描述

WikiNER是一个多语言的银标准标注命名实体识别(NER)数据集。该数据集基于2010年末的九种语言的维基百科快照,通过自动标注指向人物、地点或组织的超链接来构建。

数据集结构

数据集包含以下语言的训练和测试数据文件:

  • 英语 (en)

    • 训练数据路径: data/en/train.parquet
    • 测试数据路径: data/en/test.parquet
  • 法语 (fr)

    • 训练数据路径: data/fr/train.parquet
    • 测试数据路径: data/fr/test.parquet
  • 西班牙语 (es)

    • 训练数据路径: data/es/train.parquet
    • 测试数据路径: data/es/test.parquet
  • 德语 (de)

    • 训练数据路径: data/de/train.parquet
    • 测试数据路径: data/de/test.parquet
  • 意大利语 (it)

    • 训练数据路径: data/it/train.parquet
    • 测试数据路径: data/it/test.parquet
  • 俄语 (ru)

    • 训练数据路径: data/ru/train.parquet
    • 测试数据路径: data/ru/test.parquet
  • 波兰语 (pl)

    • 训练数据路径: data/pl/train.parquet
    • 测试数据路径: data/pl/test.parquet
  • 葡萄牙语 (pt)

    • 训练数据路径: data/pt/train.parquet
    • 测试数据路径: data/pt/test.parquet

该数据集支持多语言的命名实体识别任务,适用于跨语言研究和模型训练。

搜集汇总
数据集介绍
main_image_url
构建方式
WikiNER数据集的构建基于2010年末的多语言维基百科快照,涵盖了九种语言。该数据集通过自动标注维基百科中的超链接,识别并标注了人物、地点和组织等实体。具体而言,数据集的构建过程依赖于自动化的实体识别技术,确保了数据的高覆盖率和多样性。
特点
WikiNER数据集的主要特点在于其多语言性和银标准标注。该数据集支持英语、法语、西班牙语、德语、意大利语、俄语、波兰语和葡萄牙语等多种语言,为跨语言命名实体识别提供了丰富的资源。此外,其银标准标注方式在保证数据质量的同时,降低了人工标注的成本。
使用方法
使用WikiNER数据集时,用户可以通过HuggingFace的datasets库加载不同语言的训练和测试数据。数据集的标签映射为{0: 'O', 1: 'LOC', 2: 'PER', 3: 'MISC', 4: 'ORG'},便于直接应用于命名实体识别任务。用户可根据具体需求选择合适的语言配置,进行模型训练和评估。
背景与挑战
背景概述
WikiNER数据集是由Joel Nothman等人于2012年创建的多语言命名实体识别(NER)数据集,基于2010年末的维基百科快照,涵盖了九种语言。该数据集通过自动标注维基百科中的超链接,识别出人物、地点和组织等实体,为多语言NER研究提供了宝贵的资源。其核心研究问题在于如何从大规模的多语言文本中高效提取命名实体,这一研究对自然语言处理领域,尤其是跨语言信息抽取和机器翻译等应用具有深远影响。
当前挑战
WikiNER数据集在构建过程中面临的主要挑战包括:首先,多语言文本的异质性导致实体识别的复杂性增加,不同语言的语法结构和命名习惯差异显著。其次,自动标注的准确性依赖于维基百科链接的可靠性,可能存在噪声和误标问题。此外,跨语言的实体一致性问题也是一大挑战,如何在不同语言间保持实体标注的一致性,以确保模型的泛化能力。这些挑战不仅影响了数据集的质量,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,WikiNER数据集以其多语言的命名实体识别(NER)能力而著称。该数据集通过自动标注维基百科中的超链接,涵盖了人物、地点和组织等实体,为研究者提供了一个跨语言的银标准NER数据集。其经典使用场景包括但不限于:构建多语言NER模型,评估不同语言间的NER性能差异,以及探索跨语言迁移学习在NER任务中的应用。
实际应用
在实际应用中,WikiNER数据集被广泛用于构建和优化多语言信息抽取系统。例如,在跨国企业的客户服务系统中,利用该数据集训练的模型能够自动识别和分类不同语言的客户信息,提升服务效率。此外,在新闻聚合、社交媒体分析等领域,该数据集也为跨语言内容分析提供了强大的支持,帮助实现更精准的信息提取和内容管理。
衍生相关工作
基于WikiNER数据集,研究者们开展了一系列经典工作。例如,有研究利用该数据集进行跨语言NER模型的迁移学习,显著提升了模型在低资源语言上的表现。此外,还有工作探讨了如何通过多任务学习进一步提升NER模型的泛化能力。这些衍生工作不仅丰富了多语言NER的研究内容,也为实际应用中的跨语言信息抽取提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作