stulcrad/CNEC1_1_Supertypes_flat
收藏Hugging Face2024-05-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stulcrad/CNEC1_1_Supertypes_flat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的数据集,包含捷克语(cs)的文本数据。数据集由tokens和ner_tags两个特征组成,其中ner_tags表示命名实体识别标签,涵盖了多个类别。数据集被分为训练集、验证集和测试集,分别包含4695、587和586个示例。
该数据集是一个用于命名实体识别(NER)任务的数据集,包含捷克语(cs)的文本数据。数据集由tokens和ner_tags两个特征组成,其中ner_tags表示命名实体识别标签,涵盖了多个类别。数据集被分为训练集、验证集和测试集,分别包含4695、587和586个示例。
提供机构:
stulcrad
原始信息汇总
数据集概述
数据集特征
- tokens: 字符串序列
- ner_tags: 标签序列
- 标签类别名称:
- 0: O
- 1: B-A
- 2: I-A
- 3: B-C
- 4: I-C
- 5: B-G
- 6: I-G
- 7: B-I
- 8: I-I
- 9: B-M
- 10: I-M
- 11: B-N
- 12: I-N
- 13: B-O
- 14: I-O
- 15: B-P
- 16: I-P
- 17: B-Q
- 18: I-Q
- 19: B-T
- 20: I-T
- 标签类别名称:
数据集分割
- train:
- 字节数: 2089783
- 示例数: 4695
- validation:
- 字节数: 260957
- 示例数: 587
- test:
- 字节数: 263473
- 示例数: 586
数据集大小
- 下载大小: 894140字节
- 数据集总大小: 2614213字节
配置文件
- config_name: default
- data_files:
- split: train, path: data/train-*
- split: validation, path: data/validation-*
- split: test, path: data/test-*



