five

ai4bharat/naamapadam

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/naamapadam
下载链接
链接失效反馈
官方服务:
资源简介:
Naamapadam是一个针对11种印度语言的最大公开命名实体标注数据集。该数据集是通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建的。此外,数据集还包含了8种印度语言的手动标注测试集,每个语言包含500-1000个句子。数据集支持的任务是命名实体识别(NER),并且没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用CoNLL-2003指南进行标注。
提供机构:
ai4bharat
原始信息汇总

数据集概述

数据集描述

数据集摘要

Naamapadam是针对11种印度语言的最大的公开可用命名实体标注数据集。该数据集通过将英文侧的命名实体投影到英文-印度语言平行语料库的印度语言侧来创建。此外,数据集还包含8种印度语言的手动标注测试集,包含500-1000个句子。

支持的任务和排行榜

任务: 印度语言的命名实体识别(NER)。

排行榜: 目前没有针对此数据集的排行榜。

语言

  • Assamese (as)
  • Bengali (bn)
  • Gujarati (gu)
  • Kannada (kn)
  • Hindi (hi)
  • Malayalam (ml)
  • Marathi (mr)
  • Oriya (or)
  • Punjabi (pa)
  • Tamil (ta)
  • Telugu (te)

数据集结构

数据实例

数据集中的每个实例包含以下字段:

  • words: 数据集中的原始令牌。
  • ner: 数据集的NER标签。

数据字段

  • words: 原始令牌。
  • ner: NER标签。

数据分割

数据集根据不同语言进行了分割,具体分割情况如下:

语言 训练 验证 测试
as 10266 52 51
bn 961679 4859 607
gu 472845 2389 50
hi 985787 13460 437
kn 471763 2381 1019
ml 716652 3618 974
mr 455248 2300 1080
or 196793 993 994
pa 463534 2340 2342
ta 497882 2795 49
te 507741 2700 53

数据集创建

来源数据

数据集基于Samanantar数据集,这是一个英文和11种主要印度语言之间的平行语料库。

标注过程

NER标注遵循CoNLL-2003指南。

许可证信息

数据集的包装数据根据Creative Commons CC0许可证发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作