unimelb-nlp/wikiann

Name: unimelb-nlp/wikiann
Creator: unimelb-nlp
Published: 2024-02-22 14:32:02
License: 暂无描述

Hugging Face2024-02-22 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/unimelb-nlp/wikiann

下载链接

链接失效反馈

官方服务：

资源简介：

WikiANN数据集是一个多语言数据集，涵盖了多种语言，用于命名实体识别（NER）任务。该数据集由机器生成并通过众包方式进行标注，支持多种语言的配置。每个语言的配置包括特定的特征、数据分割和大小。数据集的任务类别为标记分类，具体为命名实体识别。数据集的来源为原始数据，许可证未知，规模类别为n<1K。

提供机构：

unimelb-nlp

原始信息汇总

数据集概述

基本信息

名称: WikiANN
别名: PAN-X
语言: 多语言，支持多种语言代码，如ace, af, als等。
许可证: 未知
多语言性: 多语言
任务类别: 词元分类
任务ID: 命名实体识别
Paperswithcode ID: wikiann-1

数据集结构

特征:
- tokens: 字符串序列
- ner_tags: 类别标签序列，包括PER（人名）、ORG（组织名）、LOC（地点名）等。
- langs: 字符串序列
- spans: 字符串序列

数据集分割

分割: 训练集、验证集、测试集
示例: 每个分割包含的示例数量和字节数根据不同语言配置有所不同，例如：
- ace配置: 训练集100个示例，23203字节
- af配置: 训练集5000个示例，1521576字节
- als配置: 训练集100个示例，34940字节
- am配置: 训练集100个示例，22186字节
- an配置: 训练集1000个示例，180939字节
- ang配置: 训练集100个示例，23268字节
- ar配置: 训练集20000个示例，4671613字节
- arc配置: 训练集100个示例，18508字节
- arz配置: 训练集100个示例，26347字节
- as配置: 训练集100个示例，24956字节
- ast配置: 训练集1000个示例，228210字节
- ay配置: 训练集100个示例，12568字节
- az配置: 训练集10000个示例，2645524字节
- ba配置: 训练集100个示例，31095字节
- bar配置: 训练集100个示例，16768字节
- bat-smg配置: 训练集100个示例，24649字节
- be配置: 训练集15000个示例，3983266字节
- be-x-old配置: 训练集5000个示例，1704228字节
- bg配置: 训练集20000个示例，5665007字节
- bh配置: 训练集100个示例，36346字节
- bn配置: 训练集10000个示例，2351563字节
- bo配置: 训练集100个示例，14057字节
- br配置: 训练集1000个示例，221467字节
- bs配置: 训练集15000个示例，3669290字节
- ca配置: 训练集20000个示例，3689286字节
- cbk-zam配置: 训练集100个示例，52517字节
- cdo配置: 训练集100个示例，36176字节
- ce配置: 训练集100个示例，38256字节
- ceb配置: 训练集100个示例，21337字节
- ckb配置: 训练集100个示例，214203字节

数据集大小

下载大小: 根据不同语言配置有所不同，例如：
- ace配置: 27835字节
- af配置: 528580字节
- als配置: 40186字节
- am配置: 30287字节
- an配置: 128283字节
- ang配置: 30667字节
- ar配置: 2582112字节
- arc配置: 22858字节
- arz配置: 32301字节
- as配置: 30404字节
- ast配置: 157002字节
- ay配置: 16901字节
- az配置: 931014字节
- ba配置: 36848字节
- bar配置: 21987字节
- bat-smg配置: 31533字节
- be配置: 1283568字节
- be-x-old配置: 586037字节
- bg配置: 3010319字节
- bh配置: 34563字节
- bn配置: 667399字节
- bo配置: 26274字节
- br配置: 193001字节
- bs配置: 1145992字节
- ca配置: 2392551字节
- cbk-zam配置: 37209字节
- cdo配置: 34997字节
- ce配置: 34386字节
- ceb配置: 27030字节
- ckb配置: 214203字节
数据集大小: 根据不同语言配置有所不同，例如：
- ace配置: 71352字节
- af配置: 2116506字节
- als配置: 105547字节
- am配置: 67370字节
- an配置: 536484字节
- ang配置: 69660字节
- ar配置: 9331909字节
- arc配置: 50819字节
- arz配置: 78563字节
- as配置: 73986字节
- ast配置: 666505字节
- ay配置: 37575字节
- az配置: 3185469字节
- ba配置: 90803字节
- bar配置: 51925字节
- bat-smg配置: 77182字节
- be配置: 4511356字节
- be-x-old配置: 2384425字节
- bg配置: 11336071字节
- bh配置: 100664字节
- bn配置: 2827171字节
- bo配置: 52126字节
- br配置: 650333字节
- bs配置: 4162943字节
- ca配置: 7373295字节
- cbk-zam配置: 146798字节
- cdo配置: 107918字节
- ce配置: 117143字节
- ceb配置: 68020字节
- ckb配置: 214203字节

数据集来源

来源: 原始数据

总结

WikiANN（PAN-X）是一个多语言的命名实体识别数据集，涵盖多种语言，每种语言的数据集根据不同的配置有不同的分割和大小。数据集的特征包括tokens, ner_tags, langs, 和 spans，用于词元分类任务。

搜集汇总

数据集介绍

构建方式

在跨语言命名实体识别领域，WikiANN数据集通过自动化方法从维基百科多语言条目中提取文本，并利用众包机制进行语言资源的整合。该数据集构建过程涉及从维基百科原始页面中抽取句子，并借助链接结构自动标注实体边界，形成包含人物、组织和地点三类实体的标注体系。这种基于维基百科跨语言链接的构建策略，确保了不同语言版本间实体对齐的连贯性，为多语言NLP研究提供了结构化的基础资源。

特点

WikiANN数据集以其卓越的多语言覆盖能力著称，涵盖超过一百种语言变体，包括从广泛使用的英语、中文到资源稀缺的方言如阿拉米语和低地撒克逊语。该数据集采用标准的BIO标注格式，每个语言配置均包含训练、验证和测试分割，数据规模从数百到数万例句不等。这种设计不仅支持单语言命名实体识别模型的训练，更为跨语言迁移学习和零样本评估提供了丰富的实验场景，其语言多样性在现有标注数据集中具有显著优势。

使用方法

研究人员可通过HuggingFace数据集库直接加载WikiANN的特定语言配置，使用标准数据加载接口获取分词序列和对应的NER标签。该数据集适用于训练基于Transformer的多语言预训练模型，如XLM-RoBERTa，通过微调实现特定语言的实体识别。在跨语言场景中，可利用高资源语言数据训练模型，再迁移至低资源语言进行评估，数据集中包含的语言标识符和跨度信息为分析模型跨语言泛化能力提供了必要支持。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为信息抽取的核心任务，长期以来面临多语言资源匮乏的困境。WikiANN数据集由墨尔本大学自然语言处理团队于2017年创建，旨在构建一个覆盖数百种语言的统一标注框架。该数据集通过跨语言链接机制，将维基百科条目中的实体映射到多语言知识库，系统性地解决了低资源语言标注数据稀缺的难题。其创新性的自动标注流程，为全球语言多样性研究提供了标准化评估基准，显著推动了跨语言迁移学习与多语言模型的发展。

当前挑战

命名实体识别在多语言场景下面临实体边界模糊与类型歧义的固有挑战，低资源语言中实体表达的文化特异性更增加了识别难度。数据集构建过程中，维基百科条目质量参差不齐导致标注噪声难以消除，跨语言实体对齐在形态复杂语言中易产生映射偏差。部分语言样本量过少限制了统计模型的泛化能力，而自动标注机制难以处理嵌套实体与代词指代等复杂语言现象，这些因素共同制约了模型在真实场景中的鲁棒性表现。

常用场景

经典使用场景

在跨语言自然语言处理领域，WikiANN数据集以其覆盖超过一百种语言的命名实体识别标注，成为评估多语言模型泛化能力的基准工具。研究者常利用该数据集训练和测试跨语言序列标注模型，探索模型在低资源语言上的迁移学习效果，尤其在比较不同预训练语言模型如mBERT、XLM-R在多语言环境下的性能表现时，WikiANN提供了标准化的评估框架。

衍生相关工作

围绕WikiANN数据集，衍生了一系列重要的研究工作。例如，在跨语言预训练模型XLM-R的评估中，WikiANN被用作核心基准之一。此外，诸如《Cross-lingual Name Tagging and Linking for 282 Languages》等研究利用该数据集构建了大规模跨语言实体链接系统，而后续工作也常将其与PAN-X数据集结合，共同用于评估模型在极端多语言场景下的鲁棒性和适应性。

数据集最近研究