mteb/multilingual-scala-classification

Name: mteb/multilingual-scala-classification
Creator: mteb
Published: 2025-05-04 16:08:12
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/multilingual-scala-classification

下载链接

链接失效反馈

官方服务：

资源简介：

ScandEval数据集是一个用于斯堪的纳维亚语言（包括丹麦语、挪威语和瑞典语）的语言可接受性分类的多语言版本数据集。该数据集包含多个语言配置，每个配置都有详细的特征描述、数据分割、下载大小和数据集大小信息。数据集旨在为斯堪的纳维亚语言的自然语言处理任务提供基准测试平台。

提供机构：

mteb

原始信息汇总

数据集概述

语言支持

丹麦语 (da)
挪威语 (nb)
挪威新挪威语 (nn)
瑞典语 (sv)

数据集配置

丹麦语
- 特征:
  - text: 数据类型为字符串
  - corruption_type: 数据类型为字符串
  - label: 数据类型为字符串
- 分割:
  - train: 1024个样本，139194字节
  - test: 2048个样本，281517字节
  - full_train: 5342个样本，733506字节
  - val: 256个样本，32942字节
- 下载大小: 700593字节
- 数据集大小: 1187159字节
挪威语 (Bokmål)
- 特征:
  - text: 数据类型为字符串
  - corruption_type: 数据类型为字符串
  - label: 数据类型为字符串
- 分割:
  - train: 1024个样本，126028字节
  - test: 2048个样本，258103字节
  - full_train: 25946个样本，3221649字节
  - val: 256个样本，31302字节
- 下载大小: 2161548字节
- 数据集大小: 3637082字节
挪威语 (Nynorsk)
- 特征:
  - text: 数据类型为字符串
  - corruption_type: 数据类型为字符串
  - label: 数据类型为字符串
- 分割:
  - train: 1024个样本，136251字节
  - test: 2048个样本，268761字节
  - full_train: 22800个样本，3062138字节
  - val: 256个样本，33910字节
- 下载大小: 2088966字节
- 数据集大小: 3501060字节
瑞典语
- 特征:
  - text: 数据类型为字符串
  - corruption_type: 数据类型为字符串
  - label: 数据类型为字符串
- 分割:
  - train: 1024个样本，135999字节
  - test: 2048个样本，262897字节
  - full_train: 7446个样本，1014513字节
  - val: 256个样本，36681字节
- 下载大小: 807624字节
- 数据集大小: 1450090字节

数据文件路径

每个语言配置下，数据按train, test, full_train, val分割，分别存储在各自的子目录中，如Danish/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集