mteb/multilingual-scala-classification
收藏Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/multilingual-scala-classification
下载链接
链接失效反馈官方服务:
资源简介:
ScandEval数据集是一个用于斯堪的纳维亚语言(包括丹麦语、挪威语和瑞典语)的语言可接受性分类的多语言版本数据集。该数据集包含多个语言配置,每个配置都有详细的特征描述、数据分割、下载大小和数据集大小信息。数据集旨在为斯堪的纳维亚语言的自然语言处理任务提供基准测试平台。
ScandEval数据集是一个用于斯堪的纳维亚语言(包括丹麦语、挪威语和瑞典语)的语言可接受性分类的多语言版本数据集。该数据集包含多个语言配置,每个配置都有详细的特征描述、数据分割、下载大小和数据集大小信息。数据集旨在为斯堪的纳维亚语言的自然语言处理任务提供基准测试平台。
提供机构:
mteb
原始信息汇总
数据集概述
语言支持
- 丹麦语 (da)
- 挪威语 (nb)
- 挪威新挪威语 (nn)
- 瑞典语 (sv)
数据集配置
-
丹麦语
- 特征:
- text: 数据类型为字符串
- corruption_type: 数据类型为字符串
- label: 数据类型为字符串
- 分割:
- train: 1024个样本,139194字节
- test: 2048个样本,281517字节
- full_train: 5342个样本,733506字节
- val: 256个样本,32942字节
- 下载大小: 700593字节
- 数据集大小: 1187159字节
- 特征:
-
挪威语 (Bokmål)
- 特征:
- text: 数据类型为字符串
- corruption_type: 数据类型为字符串
- label: 数据类型为字符串
- 分割:
- train: 1024个样本,126028字节
- test: 2048个样本,258103字节
- full_train: 25946个样本,3221649字节
- val: 256个样本,31302字节
- 下载大小: 2161548字节
- 数据集大小: 3637082字节
- 特征:
-
挪威语 (Nynorsk)
- 特征:
- text: 数据类型为字符串
- corruption_type: 数据类型为字符串
- label: 数据类型为字符串
- 分割:
- train: 1024个样本,136251字节
- test: 2048个样本,268761字节
- full_train: 22800个样本,3062138字节
- val: 256个样本,33910字节
- 下载大小: 2088966字节
- 数据集大小: 3501060字节
- 特征:
-
瑞典语
- 特征:
- text: 数据类型为字符串
- corruption_type: 数据类型为字符串
- label: 数据类型为字符串
- 分割:
- train: 1024个样本,135999字节
- test: 2048个样本,262897字节
- full_train: 7446个样本,1014513字节
- val: 256个样本,36681字节
- 下载大小: 807624字节
- 数据集大小: 1450090字节
- 特征:
数据文件路径
- 每个语言配置下,数据按train, test, full_train, val分割,分别存储在各自的子目录中,如
Danish/train-*。



