cfilt/HiNER-collapsed
收藏Hugging Face2023-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cfilt/HiNER-collapsed
下载链接
链接失效反馈官方服务:
资源简介:
HiNER数据集是一个用于印地语命名实体识别(NER)任务的大规模数据集。该数据集由CFILT实验室在IIT Bombay创建,数据来源于印度政府的各种信息网页,并经过人工标注。数据集包含原始版本和简化版本(仅包含PER、LOC和ORG标签)。数据集的创建目的是为印地语提供更多的自然语言处理资源,因为印地语在此领域相对缺乏资源。数据集的结构包括数据实例、数据字段和数据分割。数据集的标注由专家进行,确保数据质量。此外,数据集的使用需要安装HuggingFace的datasets包,并且提供了加载数据集的代码示例。
HiNER数据集是一个用于印地语命名实体识别(NER)任务的大规模数据集。该数据集由CFILT实验室在IIT Bombay创建,数据来源于印度政府的各种信息网页,并经过人工标注。数据集包含原始版本和简化版本(仅包含PER、LOC和ORG标签)。数据集的创建目的是为印地语提供更多的自然语言处理资源,因为印地语在此领域相对缺乏资源。数据集的结构包括数据实例、数据字段和数据分割。数据集的标注由专家进行,确保数据质量。此外,数据集的使用需要安装HuggingFace的datasets包,并且提供了加载数据集的代码示例。
提供机构:
cfilt
原始信息汇总
数据集概述
数据集名称
- 名称: HiNER - Large Hindi Named Entity Recognition dataset
- 别名: HiNER-original
数据集基本信息
- 语言: 印地语(Hindi)
- 许可证: CC-BY-SA 4.0
- 多语言性: 单语种
- 数据集大小: 10万<n<100万
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
数据集来源与创建
- 来源: 原始数据
- 创建理由: 为印地语的自然语言处理任务提供资源,特别是命名实体识别任务。
- 数据收集: 从印度政府信息网页收集并手动标注。
- 数据限制: 包含来自ILCI的数据部分需要额外许可。
数据集结构
- 数据实例: 包含ID、令牌和NER标签。
- 数据字段:
id: 数据点ID。tokens: 数据集中的原始令牌。ner_tags: 数据集的NER标签。
- 数据分割: 训练集、验证集和测试集的分布。
数据集使用
- 使用方法: 通过HuggingFace的
datasets库加载。 - 模型: 推荐使用HiNER-Collapsed-XLM-R和HiNER-Original-XLM-R模型。
数据集创建与注释
- 注释过程: 由专家手动标注。
- 注释者: Pallab Bhattacharjee
- 敏感信息处理: 确保数据中不包含敏感信息。
数据集影响与限制
- 社会影响: 提供大型印地语命名实体识别数据集,无负面社会影响。
- 偏见讨论: 数据中可能包含印度政府发布的信息中的偏见。
- 其他限制: 需要更多信息。
数据集管理与许可
- 数据集管理者: Pallab Bhattacharjee
- 许可信息: CC-BY-SA 4.0
- 引用信息: 提供详细的引用格式。



