five

mteb/multilingual-scala-classification

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/multilingual-scala-classification
下载链接
链接失效反馈
官方服务:
资源简介:
ScandEval数据集是一个用于斯堪的纳维亚语言(包括丹麦语、挪威语和瑞典语)的语言可接受性分类的多语言版本数据集。该数据集包含多个语言配置,每个配置都有详细的特征描述、数据分割、下载大小和数据集大小信息。数据集旨在为斯堪的纳维亚语言的自然语言处理任务提供基准测试平台。

ScandEval数据集是一个用于斯堪的纳维亚语言(包括丹麦语、挪威语和瑞典语)的语言可接受性分类的多语言版本数据集。该数据集包含多个语言配置,每个配置都有详细的特征描述、数据分割、下载大小和数据集大小信息。数据集旨在为斯堪的纳维亚语言的自然语言处理任务提供基准测试平台。
提供机构:
mteb
原始信息汇总

数据集概述

语言支持

  • 丹麦语 (da)
  • 挪威语 (nb)
  • 挪威新挪威语 (nn)
  • 瑞典语 (sv)

数据集配置

  1. 丹麦语

    • 特征:
      • text: 数据类型为字符串
      • corruption_type: 数据类型为字符串
      • label: 数据类型为字符串
    • 分割:
      • train: 1024个样本,139194字节
      • test: 2048个样本,281517字节
      • full_train: 5342个样本,733506字节
      • val: 256个样本,32942字节
    • 下载大小: 700593字节
    • 数据集大小: 1187159字节
  2. 挪威语 (Bokmål)

    • 特征:
      • text: 数据类型为字符串
      • corruption_type: 数据类型为字符串
      • label: 数据类型为字符串
    • 分割:
      • train: 1024个样本,126028字节
      • test: 2048个样本,258103字节
      • full_train: 25946个样本,3221649字节
      • val: 256个样本,31302字节
    • 下载大小: 2161548字节
    • 数据集大小: 3637082字节
  3. 挪威语 (Nynorsk)

    • 特征:
      • text: 数据类型为字符串
      • corruption_type: 数据类型为字符串
      • label: 数据类型为字符串
    • 分割:
      • train: 1024个样本,136251字节
      • test: 2048个样本,268761字节
      • full_train: 22800个样本,3062138字节
      • val: 256个样本,33910字节
    • 下载大小: 2088966字节
    • 数据集大小: 3501060字节
  4. 瑞典语

    • 特征:
      • text: 数据类型为字符串
      • corruption_type: 数据类型为字符串
      • label: 数据类型为字符串
    • 分割:
      • train: 1024个样本,135999字节
      • test: 2048个样本,262897字节
      • full_train: 7446个样本,1014513字节
      • val: 256个样本,36681字节
    • 下载大小: 807624字节
    • 数据集大小: 1450090字节

数据文件路径

  • 每个语言配置下,数据按train, test, full_train, val分割,分别存储在各自的子目录中,如Danish/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作