AnanthZeke/naamapadam
收藏Hugging Face2023-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnanthZeke/naamapadam
下载链接
链接失效反馈官方服务:
资源简介:
Naamapadam是最大的公开命名实体标注数据集,涵盖11种印度语言。该数据集通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建。此外,数据集还包含8种印度语言的手动标注测试集,每语言包含500-1000个句子。数据集支持的任务是印度语言的命名实体识别(NER),并且目前没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用了CoNLL-2003指南进行NER标注。数据集的许可证为CC0-1.0,允许无保留权利的使用。
Naamapadam是最大的公开命名实体标注数据集,涵盖11种印度语言。该数据集通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建。此外,数据集还包含8种印度语言的手动标注测试集,每语言包含500-1000个句子。数据集支持的任务是印度语言的命名实体识别(NER),并且目前没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用了CoNLL-2003指南进行NER标注。数据集的许可证为CC0-1.0,允许无保留权利的使用。
提供机构:
AnanthZeke
原始信息汇总
数据集概述
数据集名称
- 名称: Naamapadam
数据集摘要
- 摘要: Naamapadam 是最大的公开可用命名实体标注数据集,涵盖11种印度语言。该数据集通过将英文侧的命名实体投影到印度语言侧的英文-印度语言平行语料库中创建。此外,数据集还包含8种印度语言的手动标注测试集,包含500-1000个句子。
支持的任务和排行榜
- 任务: 印度语言的命名实体识别(NER)
- 排行榜: 目前无排行榜
语言
- 支持的语言:
- 阿萨姆语 (as)
- 孟加拉语 (bn)
- 古吉拉特语 (gu)
- 卡纳达语 (kn)
- 印地语 (hi)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 泰米尔语 (ta)
- 泰卢固语 (te)
数据集结构
- 数据实例: 示例包括单词和对应的NER标签。
- 数据字段:
words: 数据集中的原始令牌。ner: 数据集的NER标签。
- 数据分割: 不同语言的数据集分割情况,包括训练集、验证集和测试集的大小。
数据集创建
- 来源数据: 使用Samanantar数据集的平行语料库。
- 标注过程: 遵循CoNLL-2003指南进行NER标注。
- 标注者: 测试集的标注由熟练掌握各自语言的志愿者完成。
许可证信息
- 许可证: CC0-1.0(公共领域贡献声明)
引用信息
- 引用: 使用Naamapadam数据集时,应引用相关文章。



