ai4bharat/naamapadam
收藏Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/naamapadam
下载链接
链接失效反馈官方服务:
资源简介:
Naamapadam是一个针对11种印度语言的最大公开命名实体标注数据集。该数据集是通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建的。此外,数据集还包含了8种印度语言的手动标注测试集,每个语言包含500-1000个句子。数据集支持的任务是命名实体识别(NER),并且没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用CoNLL-2003指南进行标注。
提供机构:
ai4bharat
原始信息汇总
数据集概述
数据集描述
数据集摘要
Naamapadam是针对11种印度语言的最大的公开可用命名实体标注数据集。该数据集通过将英文侧的命名实体投影到英文-印度语言平行语料库的印度语言侧来创建。此外,数据集还包含8种印度语言的手动标注测试集,包含500-1000个句子。
支持的任务和排行榜
任务: 印度语言的命名实体识别(NER)。
排行榜: 目前没有针对此数据集的排行榜。
语言
- Assamese (as)
- Bengali (bn)
- Gujarati (gu)
- Kannada (kn)
- Hindi (hi)
- Malayalam (ml)
- Marathi (mr)
- Oriya (or)
- Punjabi (pa)
- Tamil (ta)
- Telugu (te)
数据集结构
数据实例
数据集中的每个实例包含以下字段:
words: 数据集中的原始令牌。ner: 数据集的NER标签。
数据字段
words: 原始令牌。ner: NER标签。
数据分割
数据集根据不同语言进行了分割,具体分割情况如下:
| 语言 | 训练 | 验证 | 测试 |
|---|---|---|---|
| as | 10266 | 52 | 51 |
| bn | 961679 | 4859 | 607 |
| gu | 472845 | 2389 | 50 |
| hi | 985787 | 13460 | 437 |
| kn | 471763 | 2381 | 1019 |
| ml | 716652 | 3618 | 974 |
| mr | 455248 | 2300 | 1080 |
| or | 196793 | 993 | 994 |
| pa | 463534 | 2340 | 2342 |
| ta | 497882 | 2795 | 49 |
| te | 507741 | 2700 | 53 |
数据集创建
来源数据
数据集基于Samanantar数据集,这是一个英文和11种主要印度语言之间的平行语料库。
标注过程
NER标注遵循CoNLL-2003指南。
许可证信息
数据集的包装数据根据Creative Commons CC0许可证发布。



