WikiANN Dataset

Name: WikiANN Dataset
Creator: paperswithcode.com
License: 暂无描述

paperswithcode.com2025-03-23 收录

下载链接：

https://paperswithcode.com/dataset/wikiann-1

下载链接

链接失效反馈

官方服务：

资源简介：

WikiANN, also known as PAN-X, is a multilingual named entity recognition dataset. It consists of Wikipedia articles that have been annotated with LOC (location), PER (person), and ORG (organization) tags in the IOB2 format¹². This dataset serves as a valuable resource for training and evaluating named entity recognition models across various languages. For instance, it includes information about notable individuals, places, and organizations mentioned in Wikipedia articles. Researchers and practitioners can use WikiANN to develop and improve natural language processing systems that identify and classify named entities in text. (1) wikiann · Datasets at Hugging Face. https://huggingface.co/datasets/wikiann. (2) wikiann | TensorFlow Datasets. https://tensorflow.google.cn/datasets/catalog/wikiann. (3) wikiann · Datasets at Hugging Face. https://huggingface.co/datasets/wikiann/viewer/en. (4) WikiAnn Dataset | Papers With Code. https://paperswithcode.com/dataset/wikiann-1.

WikiANN，亦称PAN-X，乃是一款多语言命名实体识别数据集。该数据集由标注有LOC（地理位置）、PER（人物）和ORG（组织）标签的维基百科文章构成，采用IOB2格式（1, 2）。WikiANN作为一项宝贵资源，服务于不同语言下命名实体识别模型的训练与评估。例如，该数据集收录了维基百科文章中提及的知名人物、地点及组织的相关信息。研究人员与实践者可通过WikiANN研发并优化自然语言处理系统，以实现文本中命名实体的识别与分类。（1）（2）（3）（4）

提供机构：

paperswithcode.com

5,000+

优质数据集

54 个

任务类型

进入经典数据集