stulcrad/CNEC2_0_Supertypes_flat
收藏Hugging Face2024-06-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stulcrad/CNEC2_0_Supertypes_flat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个捷克语的命名实体识别(NER)数据集,包含tokens和ner_tags两个特征。ner_tags是一个序列,包含多个类标签,用于标识不同类型的命名实体。数据集分为训练集、验证集和测试集,分别包含7193、900和899个示例。数据集的总大小为3500985字节,下载大小为1199569字节。该数据集的任务类别为token-classification。
该数据集是一个捷克语的命名实体识别(NER)数据集,包含tokens和ner_tags两个特征。ner_tags是一个序列,包含多个类标签,用于标识不同类型的命名实体。数据集分为训练集、验证集和测试集,分别包含7193、900和899个示例。数据集的总大小为3500985字节,下载大小为1199569字节。该数据集的任务类别为token-classification。
提供机构:
stulcrad
原始信息汇总
数据集概述
数据集特征
- tokens: 字符串序列
- ner_tags: 序列标签,包含以下类别:
- 0: O
- 1: B-A
- 2: I-A
- 3: B-G
- 4: I-G
- 5: B-I
- 6: I-I
- 7: B-M
- 8: I-M
- 9: B-N
- 10: I-N
- 11: B-O
- 12: I-O
- 13: B-P
- 14: I-P
- 15: B-T
- 16: I-T
数据集划分
- train: 7193个样本,占用2798586字节
- validation: 900个样本,占用350253字节
- test: 899个样本,占用352146字节
数据集大小
- 下载大小: 1199569字节
- 数据集总大小: 3500985字节
任务类别
- 词元分类



