iamfadi/indian_ner
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/iamfadi/indian_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,主要用于自然语言处理任务,特别是命名实体识别(NER)。数据集详细记录了文本及其对应的实体标签,分为训练集、验证集和测试集,分别包含10995、1074和4501个样本。数据集的结构化信息包括文本的起始和结束位置、标签类型等,有助于模型理解和识别文本中的实体。
该数据集包含多个特征,主要用于自然语言处理任务,特别是命名实体识别(NER)。数据集详细记录了文本及其对应的实体标签,分为训练集、验证集和测试集,分别包含10995、1074和4501个样本。数据集的结构化信息包括文本的起始和结束位置、标签类型等,有助于模型理解和识别文本中的实体。
提供机构:
iamfadi
原始信息汇总
数据集概述
数据集特征
- annotations
- result
- from_name: 数据类型为字符串
- id: 数据类型为字符串
- to_name: 数据类型为字符串
- type: 数据类型为字符串
- value
- end: 数据类型为int64
- labels: 数据类型为字符串序列
- start: 数据类型为int64
- text: 数据类型为字符串
- result
- meta
- source: 数据类型为字符串
- id: 数据类型为字符串
- text: 数据类型为字符串
- ner_tags: 数据类型为字符串序列
数据集划分
- train
- num_bytes: 25887374
- num_examples: 10995
- dev
- num_bytes: 2756135
- num_examples: 1074
- test
- num_bytes: 11447416
- num_examples: 4501
数据集大小
- download_size: 5711466
- dataset_size: 40090925
配置文件
- config_name: default
- data_files
- split: train, dev, test
- path: data/train-, data/dev-, data/test-*
- data_files



