five

cfilt/HiNER-collapsed

收藏
Hugging Face2023-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cfilt/HiNER-collapsed
下载链接
链接失效反馈
官方服务:
资源简介:
HiNER数据集是一个用于印地语命名实体识别(NER)任务的大规模数据集。该数据集由CFILT实验室在IIT Bombay创建,数据来源于印度政府的各种信息网页,并经过人工标注。数据集包含原始版本和简化版本(仅包含PER、LOC和ORG标签)。数据集的创建目的是为印地语提供更多的自然语言处理资源,因为印地语在此领域相对缺乏资源。数据集的结构包括数据实例、数据字段和数据分割。数据集的标注由专家进行,确保数据质量。此外,数据集的使用需要安装HuggingFace的datasets包,并且提供了加载数据集的代码示例。

HiNER数据集是一个用于印地语命名实体识别(NER)任务的大规模数据集。该数据集由CFILT实验室在IIT Bombay创建,数据来源于印度政府的各种信息网页,并经过人工标注。数据集包含原始版本和简化版本(仅包含PER、LOC和ORG标签)。数据集的创建目的是为印地语提供更多的自然语言处理资源,因为印地语在此领域相对缺乏资源。数据集的结构包括数据实例、数据字段和数据分割。数据集的标注由专家进行,确保数据质量。此外,数据集的使用需要安装HuggingFace的datasets包,并且提供了加载数据集的代码示例。
提供机构:
cfilt
原始信息汇总

数据集概述

数据集名称

  • 名称: HiNER - Large Hindi Named Entity Recognition dataset
  • 别名: HiNER-original

数据集基本信息

  • 语言: 印地语(Hindi)
  • 许可证: CC-BY-SA 4.0
  • 多语言性: 单语种
  • 数据集大小: 10万<n<100万
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别

数据集来源与创建

  • 来源: 原始数据
  • 创建理由: 为印地语的自然语言处理任务提供资源,特别是命名实体识别任务。
  • 数据收集: 从印度政府信息网页收集并手动标注。
  • 数据限制: 包含来自ILCI的数据部分需要额外许可。

数据集结构

  • 数据实例: 包含ID、令牌和NER标签。
  • 数据字段:
    • id: 数据点ID。
    • tokens: 数据集中的原始令牌。
    • ner_tags: 数据集的NER标签。
  • 数据分割: 训练集、验证集和测试集的分布。

数据集使用

  • 使用方法: 通过HuggingFace的datasets库加载。
  • 模型: 推荐使用HiNER-Collapsed-XLM-R和HiNER-Original-XLM-R模型。

数据集创建与注释

  • 注释过程: 由专家手动标注。
  • 注释者: Pallab Bhattacharjee
  • 敏感信息处理: 确保数据中不包含敏感信息。

数据集影响与限制

  • 社会影响: 提供大型印地语命名实体识别数据集,无负面社会影响。
  • 偏见讨论: 数据中可能包含印度政府发布的信息中的偏见。
  • 其他限制: 需要更多信息。

数据集管理与许可

  • 数据集管理者: Pallab Bhattacharjee
  • 许可信息: CC-BY-SA 4.0
  • 引用信息: 提供详细的引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作