ai4bharat/naamapadam

Name: ai4bharat/naamapadam
Creator: ai4bharat
Published: 2023-05-24 17:09:03
License: 暂无描述

Hugging Face2023-05-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/naamapadam

下载链接

链接失效反馈

官方服务：

资源简介：

Naamapadam是一个针对11种印度语言的最大公开命名实体标注数据集。该数据集是通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建的。此外，数据集还包含了8种印度语言的手动标注测试集，每个语言包含500-1000个句子。数据集支持的任务是命名实体识别（NER），并且没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集，使用CoNLL-2003指南进行标注。

提供机构：

ai4bharat

原始信息汇总

数据集概述

数据集描述

数据集摘要

Naamapadam是针对11种印度语言的最大的公开可用命名实体标注数据集。该数据集通过将英文侧的命名实体投影到英文-印度语言平行语料库的印度语言侧来创建。此外，数据集还包含8种印度语言的手动标注测试集，包含500-1000个句子。

支持的任务和排行榜

任务： 印度语言的命名实体识别（NER）。

排行榜： 目前没有针对此数据集的排行榜。

语言

Assamese (as)
Bengali (bn)
Gujarati (gu)
Kannada (kn)
Hindi (hi)
Malayalam (ml)
Marathi (mr)
Oriya (or)
Punjabi (pa)
Tamil (ta)
Telugu (te)

数据集结构

数据实例

数据集中的每个实例包含以下字段：

words: 数据集中的原始令牌。
ner: 数据集的NER标签。

数据字段

words: 原始令牌。
ner: NER标签。

数据分割

数据集根据不同语言进行了分割，具体分割情况如下：

语言	训练	验证	测试
as	10266	52	51
bn	961679	4859	607
gu	472845	2389	50
hi	985787	13460	437
kn	471763	2381	1019
ml	716652	3618	974
mr	455248	2300	1080
or	196793	993	994
pa	463534	2340	2342
ta	497882	2795	49
te	507741	2700	53

数据集创建

来源数据

数据集基于Samanantar数据集，这是一个英文和11种主要印度语言之间的平行语料库。

标注过程

NER标注遵循CoNLL-2003指南。

许可证信息

数据集的包装数据根据Creative Commons CC0许可证发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集