WikiANN-TR

Hugging Face2025-12-14 更新2025-12-15 收录

下载链接：

https://huggingface.co/datasets/boun-tabilab/WikiANN-TR

下载链接

链接失效反馈

官方服务：

资源简介：

WikiANN TR数据集是从原始WikiANN数据集中提取的土耳其语（tr）子集。该数据集保持了原始数据的结构，包含四个主要字段：tokens（字符串列表）、tags（分类标签列表，包括O、B-PER、I-PER、B-ORG、I-ORG、B-LOC、I-LOC等）、langs（字符串列表）和spans（字符串列表）。数据集分为训练集（20000个例子）、验证集（10000个例子）和测试集（10000个例子）。

The WikiANN TR dataset is the Turkish (tr) subset extracted from the original WikiANN dataset. It retains the structure of the original data and includes four core fields: tokens (a list of strings), tags (a list of classification labels including O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, etc.), langs (a list of strings), and spans (a list of strings). The dataset is split into training set (20,000 examples), validation set (10,000 examples) and test set (10,000 examples).

创建时间：

2025-12-09

原始信息汇总

WikiANN-TR 数据集概述

数据集描述

WikiANN-TR 是 WikiANN 数据集的土耳其语（tr）子集。WikiANN 原始数据集支持 176 种语言。

数据集结构

该数据集保持了原始的数据结构。

数据字段

tokens (列表): 一个由字符串组成的列表。
tags (列表): 一个分类标签列表，可能的值包括：
- O (0)
- B-PER (1)
- I-PER (2)
- B-ORG (3)
- I-ORG (4)
- B-LOC (5)
- I-LOC (6)
langs (列表): 一个由字符串组成的列表。
spans (列表): 一个由字符串组成的列表。

数据划分与规模

训练集 (train): 20,000 个样本。
验证集 (validation): 10,000 个样本。
测试集 (test): 10,000 个样本。
总数据集大小: 9,059,237 字节。
下载大小: 2,176,280 字节。

源数据集

本数据集基于源数据集构建：https://huggingface.co/datasets/unimelb-nlp/wikiann

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，命名实体识别任务对于理解文本语义至关重要。WikiANN-TR数据集的构建源于跨语言知识迁移的学术探索，其原始版本覆盖了176种语言，旨在为多语言命名实体识别研究提供统一基准。该数据集通过从维基百科条目中自动抽取文本片段，并利用跨语言链接与人工标注的英文数据对齐，生成了土耳其语的标注样本。构建过程中采用了远程监督方法，将英文标注通过跨语言映射传递至土耳其语文本，确保了标注的语义一致性。数据经过清洗与分割，形成了包含训练、验证和测试三个子集的标准化结构，为模型评估提供了可靠基础。

使用方法

使用WikiANN-TR数据集时，研究者可将其直接加载至主流深度学习框架中，进行命名实体识别模型的训练与评估。数据以标准化的JSON格式存储，每个样本的词汇与标签序列可直接输入模型，无需额外预处理。在模型开发过程中，建议先利用训练集进行参数优化，再通过验证集调整超参数，最终在测试集上评估性能。由于数据集包含明确的语言标识，它也适用于多语言联合训练或零样本迁移实验。使用时需注意标注噪声可能对模型性能的影响，可通过数据清洗或噪声鲁棒算法加以缓解。该数据集与HuggingFace生态系统无缝集成，支持快速实验迭代与结果复现。

背景与挑战

背景概述

WikiANN-TR数据集源自多语言命名实体识别领域，作为WikiANN数据集土耳其语子集，由墨尔本大学自然语言处理团队于2020年左右构建。该数据集旨在解决跨语言命名实体识别任务，特别是针对土耳其语文本中人物、组织和地点等实体的自动标注问题。其构建基于维基百科条目，通过自动标注与人工校验相结合的方式，为土耳其语自然语言处理研究提供了高质量的标注资源。该数据集的发布显著推动了低资源语言在信息抽取领域的发展，为跨语言模型训练与评估奠定了重要基础。

当前挑战

在命名实体识别领域，WikiANN-TR数据集面临的挑战包括处理土耳其语特有的形态复杂性和黏着语特性，这导致实体边界识别与词形变化分析尤为困难。数据构建过程中，自动标注系统需克服维基百科文本中嵌套实体、缩写及跨语言实体对齐等难题，同时确保标注一致性。此外，数据集规模相对有限，难以全面覆盖土耳其语中多样化的实体表达，对模型泛化能力提出更高要求。

常用场景

经典使用场景

在自然语言处理领域，跨语言命名实体识别任务常面临资源稀缺语言的标注数据不足问题。WikiANN-TR数据集作为土耳其语命名实体识别的标准基准，其经典使用场景在于为研究者提供高质量、大规模且结构化的标注语料，用于训练和评估序列标注模型，如BiLSTM-CRF或基于Transformer的架构，以识别文本中的人名、组织名和地名等实体。

解决学术问题

该数据集有效解决了土耳其语等低资源语言在命名实体识别研究中数据匮乏的核心挑战，为跨语言迁移学习、少样本学习及多语言模型预训练提供了实证基础。其标注体系遵循IOB2标准，促进了实体边界识别和类型分类的算法优化，推动了语言无关或语言特定NER方法的发展，对计算语言学中的语言资源均衡化具有深远意义。

实际应用

在实际应用中，WikiANN-TR数据集支撑了土耳其语信息提取系统的开发，例如新闻媒体中的自动实体标注、搜索引擎的查询理解增强以及社交媒体监控中的关键实体检测。这些系统能够提升文本分析效率，辅助内容推荐、风险管理和多语言客户服务，为土耳其语地区的数字化服务提供核心技术支持。

数据集最近研究