five

mariosasko/glue

收藏
Hugging Face2023-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mariosasko/glue
下载链接
链接失效反馈
官方服务:
资源简介:
GLUE(通用语言理解评估基准)是一个用于训练、评估和分析自然语言理解系统的资源集合。它包含多个任务,如文本分类、自然语言推理和语义相似性评分。数据集为单语(英语),并遵循CC-BY-4.0许可。每个任务都有详细的配置,包括数据字段、分割和示例。
提供机构:
mariosasko
原始信息汇总

数据集概述

名称: GLUE (General Language Understanding Evaluation benchmark)

语言: 英语 (en)

许可证: CC-BY-4.0

多语言性: 单语种

大小类别: 10K<n<100K

源数据集: 原始

任务类别: 文本分类

任务ID:

  • acceptability-classification
  • natural-language-inference
  • semantic-similarity-scoring
  • sentiment-classification
  • text-scoring

配置:

  • ax
  • cola
  • mnli
  • mnli_matched
  • mnli_mismatched
  • mrpc
  • qnli
  • qqp
  • rte
  • sst2
  • stsb
  • wnli

数据集结构

数据实例

  • ax:

    • 特征: premise, hypothesis, label, idx
    • 示例: {"premise": "The cat sat on the mat.", "hypothesis": "The cat did not sit on the mat.", "label": -1, "idx": 0}
  • cola:

    • 特征: sentence, label, idx
    • 示例: {"sentence": "Our friends wont buy this analysis, let alone the next one we propose.", "label": 1, "id": 0}
  • mnli:

    • 特征: premise, hypothesis, label, idx
    • 示例: {"premise": "Conceptually cream skimming has two basic dimensions - product and geography.", "hypothesis": "Product and geography are what make cream skimming work.", "label": 1, "idx": 0}
  • mnli_matched:

    • 特征: premise, hypothesis, label, idx
    • 示例: {"premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.", "hypothesis": "Hierbas is a name worth looking out for.", "label": -1, "idx": 0}
  • mnli_mismatched:

    • 特征: premise, hypothesis, label, idx
    • 示例: {"premise": "What have you decided, what are you going to do?", "hypothesis": "So whats your decision?"}

数据字段

  • ax:

    • premise: 字符串
    • hypothesis: 字符串
    • label: 类别标签
    • idx: int32
  • cola:

    • sentence: 字符串
    • label: 类别标签
    • idx: int32
  • mnli:

    • premise: 字符串
    • hypothesis: 字符串
    • label: 类别标签
    • idx: int32
  • mnli_matched:

    • premise: 字符串
    • hypothesis: 字符串
    • label: 类别标签
    • idx: int32
  • mnli_mismatched:

    • premise: 字符串
    • hypothesis: 字符串
    • label: 类别标签
    • idx: int32

数据分割

  • ax:

    • 测试: 1104个示例
  • cola:

    • 测试: 1063个示例
    • 训练: 8551个示例
    • 验证: 1043个示例
  • mnli:

    • 测试_匹配: 9796个示例
    • 测试_不匹配: 9847个示例
    • 训练: 392702个示例
    • 验证_匹配: 9815个示例
    • 验证_不匹配: 9832个示例
  • mnli_matched:

    • 测试: 9796个示例
    • 验证: 9815个示例
  • mnli_mismatched:

    • 测试: 9847个示例
    • 验证: 9832个示例
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作