tollefj/no-da-NER
收藏Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/no-da-NER
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由三个子数据集`wikiann`、`norne`和`dane`组成,统一为BIO标注方案。数据集包含`tokens`、`ner_tags`和`dataset`三个特征,并分为`train`、`validation`和`test`三个分割。数据集的任务类别为文本分类,语言为挪威语和丹麦语,大小类别为10K到100K之间。
该数据集由三个子数据集`wikiann`、`norne`和`dane`组成,统一为BIO标注方案。数据集包含`tokens`、`ner_tags`和`dataset`三个特征,并分为`train`、`validation`和`test`三个分割。数据集的任务类别为文本分类,语言为挪威语和丹麦语,大小类别为10K到100K之间。
提供机构:
tollefj
原始信息汇总
数据集概述
数据集特征
- tokens: 字符串序列
- ner_tags: 整数序列
- dataset: 字符串类型
数据集分割
- 训练集: 94,253个样本,占用20,416,089字节
- 验证集: 25,864个样本,占用4,904,248字节
- 测试集: 25,015个样本,占用4,673,139字节
数据集大小
- 下载大小: 8,000,299字节
- 总大小: 29,993,476字节
配置
- 默认配置: 包含训练、验证和测试数据文件,路径分别为
data/train-*、data/validation-*和data/test-*
任务类别
- 文本分类
语言
- 挪威语(no)
- 丹麦语(da)
大小类别
- 10K<n<100K



