five

KBLab/overlim

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KBLab/overlim
下载链接
链接失效反馈
官方服务:
资源简介:
OverLim数据集包含GLUE和SuperGLUE任务,这些任务被自动翻译成瑞典语、丹麦语和挪威语(博克马尔语),使用了OpusMT模型的MarianMT进行翻译。翻译质量未经人工检查,因此可能存在错误。数据集支持的任务包括自然语言推理、语义相似性分类、情感分类和文本评分等。数据集的结构包括每个任务的特征,如前提、假设、文本A、文本B等。数据集的创建目的是为了训练非英语模型,并提供一个评估数据集以比较它们的实际性能。
提供机构:
KBLab
原始信息汇总

数据集概述

数据集描述

  • 名称: OverLim
  • 概述: OverLim 数据集包含自动翻译成瑞典语、丹麦语和挪威语(书面挪威语)的GLUE和SuperGLUE任务。这些翻译使用OpusMT模型进行,翻译质量未经手动检查,可能存在错误。

支持的任务和语言

  • 任务:
    • 自然语言推理
    • 语义相似度分类
    • 情感分类
    • 文本评分
  • 任务来源:
    • GLUE
    • SuperGLUE
  • 语言:
    • 瑞典语
    • 丹麦语
    • 挪威语(书面挪威语)

数据集结构

数据实例

  • GLUE任务:
    • mnli: 包含premisehypothesis
    • mrpc: 包含text_atext_b
    • qnli: 包含premisehypothesis
    • qqp: 包含text_atext_b
    • sst: 包含text
    • stsb: 包含text_atext_b
    • wnli: 包含premisehypothesis
  • SuperGLUE任务:
    • boolq: 包含questionpassage
    • cb: 包含premisehypothesis
    • copa: 包含premise, choice1, choice2question
    • rte: 包含premisehypothesis

数据分割

  • 数据集重新分配了原始的验证集作为测试集,并将训练集分割为新的训练集和验证集,比例为80-20。

数据集创建

  • 翻译质量: 未经手动检查,可能存在错误。
  • 翻译工具: 使用OpusMT模型进行翻译。

使用考虑

  • 由于翻译质量未经确认,使用时应谨慎解释结果。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作