five

AnanthZeke/naamapadam

收藏
Hugging Face2023-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnanthZeke/naamapadam
下载链接
链接失效反馈
官方服务:
资源简介:
Naamapadam是最大的公开命名实体标注数据集,涵盖11种印度语言。该数据集通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建。此外,数据集还包含8种印度语言的手动标注测试集,每语言包含500-1000个句子。数据集支持的任务是印度语言的命名实体识别(NER),并且目前没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用了CoNLL-2003指南进行NER标注。数据集的许可证为CC0-1.0,允许无保留权利的使用。

Naamapadam是最大的公开命名实体标注数据集,涵盖11种印度语言。该数据集通过将英语-印度语言平行语料库中的命名实体从英语侧投影到印度语言侧创建。此外,数据集还包含8种印度语言的手动标注测试集,每语言包含500-1000个句子。数据集支持的任务是印度语言的命名实体识别(NER),并且目前没有相关的排行榜。数据集的语言包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据集的创建基于Samanantar数据集,使用了CoNLL-2003指南进行NER标注。数据集的许可证为CC0-1.0,允许无保留权利的使用。
提供机构:
AnanthZeke
原始信息汇总

数据集概述

数据集名称

  • 名称: Naamapadam

数据集摘要

  • 摘要: Naamapadam 是最大的公开可用命名实体标注数据集,涵盖11种印度语言。该数据集通过将英文侧的命名实体投影到印度语言侧的英文-印度语言平行语料库中创建。此外,数据集还包含8种印度语言的手动标注测试集,包含500-1000个句子。

支持的任务和排行榜

  • 任务: 印度语言的命名实体识别(NER)
  • 排行榜: 目前无排行榜

语言

  • 支持的语言:
    • 阿萨姆语 (as)
    • 孟加拉语 (bn)
    • 古吉拉特语 (gu)
    • 卡纳达语 (kn)
    • 印地语 (hi)
    • 马拉雅拉姆语 (ml)
    • 马拉地语 (mr)
    • 奥里亚语 (or)
    • 旁遮普语 (pa)
    • 泰米尔语 (ta)
    • 泰卢固语 (te)

数据集结构

  • 数据实例: 示例包括单词和对应的NER标签。
  • 数据字段:
    • words: 数据集中的原始令牌。
    • ner: 数据集的NER标签。
  • 数据分割: 不同语言的数据集分割情况,包括训练集、验证集和测试集的大小。

数据集创建

  • 来源数据: 使用Samanantar数据集的平行语料库。
  • 标注过程: 遵循CoNLL-2003指南进行NER标注。
  • 标注者: 测试集的标注由熟练掌握各自语言的志愿者完成。

许可证信息

  • 许可证: CC0-1.0(公共领域贡献声明)

引用信息

  • 引用: 使用Naamapadam数据集时,应引用相关文章。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作