five

tollefj/no-da-NER

收藏
Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/no-da-NER
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由三个子数据集`wikiann`、`norne`和`dane`组成,统一为BIO标注方案。数据集包含`tokens`、`ner_tags`和`dataset`三个特征,并分为`train`、`validation`和`test`三个分割。数据集的任务类别为文本分类,语言为挪威语和丹麦语,大小类别为10K到100K之间。

该数据集由三个子数据集`wikiann`、`norne`和`dane`组成,统一为BIO标注方案。数据集包含`tokens`、`ner_tags`和`dataset`三个特征,并分为`train`、`validation`和`test`三个分割。数据集的任务类别为文本分类,语言为挪威语和丹麦语,大小类别为10K到100K之间。
提供机构:
tollefj
原始信息汇总

数据集概述

数据集特征

  • tokens: 字符串序列
  • ner_tags: 整数序列
  • dataset: 字符串类型

数据集分割

  • 训练集: 94,253个样本,占用20,416,089字节
  • 验证集: 25,864个样本,占用4,904,248字节
  • 测试集: 25,015个样本,占用4,673,139字节

数据集大小

  • 下载大小: 8,000,299字节
  • 总大小: 29,993,476字节

配置

  • 默认配置: 包含训练、验证和测试数据文件,路径分别为data/train-*data/validation-*data/test-*

任务类别

  • 文本分类

语言

  • 挪威语(no)
  • 丹麦语(da)

大小类别

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作