AnanthZeke/naamapadam

Name: AnanthZeke/naamapadam
Creator: AnanthZeke
Published: 2023-03-16 05:18:15
License: 暂无描述

Hugging Face2023-03-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AnanthZeke/naamapadam

下载链接

链接失效反馈

官方服务：

资源简介：

Naamapadam是最大的公开命名实体标注数据集，涵盖11种印度语言。该数据集通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建。此外，数据集还包含8种印度语言的手动标注测试集，每语言包含500-1000个句子。数据集支持的任务是印度语言的命名实体识别（NER），并且目前没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集，使用了CoNLL-2003指南进行NER标注。数据集的许可证为CC0-1.0，允许无保留权利的使用。

提供机构：

AnanthZeke

原始信息汇总

数据集概述

数据集名称

名称: Naamapadam

数据集摘要

摘要: Naamapadam 是最大的公开可用命名实体标注数据集，涵盖11种印度语言。该数据集通过将英文侧的命名实体投影到印度语言侧的英文-印度语言平行语料库中创建。此外，数据集还包含8种印度语言的手动标注测试集，包含500-1000个句子。

支持的任务和排行榜

任务: 印度语言的命名实体识别（NER）
排行榜: 目前无排行榜

语言

支持的语言:
- 阿萨姆语 (as)
- 孟加拉语 (bn)
- 古吉拉特语 (gu)
- 卡纳达语 (kn)
- 印地语 (hi)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 泰米尔语 (ta)
- 泰卢固语 (te)

数据集结构

数据实例: 示例包括单词和对应的NER标签。
数据字段:
- words: 数据集中的原始令牌。
- ner: 数据集的NER标签。
数据分割: 不同语言的数据集分割情况，包括训练集、验证集和测试集的大小。

数据集创建

来源数据: 使用Samanantar数据集的平行语料库。
标注过程: 遵循CoNLL-2003指南进行NER标注。
标注者: 测试集的标注由熟练掌握各自语言的志愿者完成。

许可证信息

许可证: CC0-1.0（公共领域贡献声明）

引用信息

引用: 使用Naamapadam数据集时，应引用相关文章。

5,000+

优质数据集

54 个

任务类型

进入经典数据集