cfilt/HiNER-collapsed

Name: cfilt/HiNER-collapsed
Creator: cfilt
Published: 2023-03-07 16:32:27
License: 暂无描述

Hugging Face2023-03-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cfilt/HiNER-collapsed

下载链接

链接失效反馈

官方服务：

资源简介：

HiNER数据集是一个用于印地语命名实体识别（NER）任务的大规模数据集。该数据集由CFILT实验室在IIT Bombay创建，数据来源于印度政府的各种信息网页，并经过人工标注。数据集包含原始版本和简化版本（仅包含PER、LOC和ORG标签）。数据集的创建目的是为印地语提供更多的自然语言处理资源，因为印地语在此领域相对缺乏资源。数据集的结构包括数据实例、数据字段和数据分割。数据集的标注由专家进行，确保数据质量。此外，数据集的使用需要安装HuggingFace的datasets包，并且提供了加载数据集的代码示例。

提供机构：

cfilt

原始信息汇总

数据集概述

数据集名称

名称: HiNER - Large Hindi Named Entity Recognition dataset
别名: HiNER-original

数据集基本信息

语言: 印地语（Hindi）
许可证: CC-BY-SA 4.0
多语言性: 单语种
数据集大小: 10万<n<100万
任务类别: 令牌分类
任务ID: 命名实体识别

数据集来源与创建

来源: 原始数据
创建理由: 为印地语的自然语言处理任务提供资源，特别是命名实体识别任务。
数据收集: 从印度政府信息网页收集并手动标注。
数据限制: 包含来自ILCI的数据部分需要额外许可。

数据集结构

数据实例: 包含ID、令牌和NER标签。
数据字段:
- id: 数据点ID。
- tokens: 数据集中的原始令牌。
- ner_tags: 数据集的NER标签。
数据分割: 训练集、验证集和测试集的分布。

数据集使用

使用方法: 通过HuggingFace的datasets库加载。
模型: 推荐使用HiNER-Collapsed-XLM-R和HiNER-Original-XLM-R模型。

数据集创建与注释

注释过程: 由专家手动标注。
注释者: Pallab Bhattacharjee
敏感信息处理: 确保数据中不包含敏感信息。

数据集影响与限制

社会影响: 提供大型印地语命名实体识别数据集，无负面社会影响。
偏见讨论: 数据中可能包含印度政府发布的信息中的偏见。
其他限制: 需要更多信息。

数据集管理与许可

数据集管理者: Pallab Bhattacharjee
许可信息: CC-BY-SA 4.0
引用信息: 提供详细的引用格式。

5,000+

优质数据集

54 个

任务类型

进入经典数据集