five

nyu-mll/glue|自然语言处理数据集|语言理解数据集

收藏
hugging_face2024-01-30 更新2024-04-19 收录
自然语言处理
语言理解
下载链接:
https://hf-mirror.com/datasets/nyu-mll/glue
下载链接
链接失效反馈
资源简介:
GLUE(通用语言理解评估基准)是一个集合了多种资源的数据集,用于训练、评估和分析自然语言理解系统。它涵盖了多个任务,包括文本分类、自然语言推理、语义相似性评分等,每个任务都有详细的数据集结构和评估标准。GLUE通过多个子任务来全面评估模型的语言理解能力,并提供了一个Leaderboard来展示不同模型的性能。
提供机构:
nyu-mll
原始信息汇总

数据集概述

数据集基本信息

  • 名称: GLUE (General Language Understanding Evaluation benchmark)
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语
  • 大小类别: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 文本分类
  • 任务ID:
    • acceptability-classification
    • natural-language-inference
    • semantic-similarity-scoring
    • sentiment-classification
    • text-scoring
  • Paperswithcode ID: glue
  • 配置名称:
    • ax
    • cola
    • mnli
    • mnli_matched
    • mnli_mismatched
    • mrpc
    • qnli
    • qqp
    • rte
    • sst2
    • stsb
    • wnli

数据集结构

数据实例

ax

  • 特征:
    • premise: 字符串
    • hypothesis: 字符串
    • label:
      • 0: entailment
      • 1: neutral
      • 2: contradiction
    • idx: int32
  • 分割:
    • test: 1104个样本, 237694字节

cola

  • 特征:
    • sentence: 字符串
    • label:
      • 0: unacceptable
      • 1: acceptable
    • idx: int32
  • 分割:
    • train: 8551个样本, 484869字节
    • validation: 1043个样本, 60322字节
    • test: 1063个样本, 60513字节

mnli

  • 特征:
    • premise: 字符串
    • hypothesis: 字符串
    • label:
      • 0: entailment
      • 1: neutral
      • 2: contradiction
    • idx: int32
  • 分割:
    • train: 392702个样本, 74619646字节
    • validation_matched: 9815个样本, 1833783字节
    • validation_mismatched: 9832个样本, 1949231字节
    • test_matched: 9796个样本, 1848654字节
    • test_mismatched: 9847个样本, 1950703字节

mnli_matched

  • 特征:
    • premise: 字符串
    • hypothesis: 字符串
    • label:
      • 0: entailment
      • 1: neutral
      • 2: contradiction
    • idx: int32
  • 分割:
    • validation: 9815个样本, 1833783字节
    • test: 9796个样本, 1848654字节

mnli_mismatched

  • 特征:
    • premise: 字符串
    • hypothesis: 字符串
    • label:
      • 0: entailment
      • 1: neutral
      • 2: contradiction
    • idx: int32
  • 分割:
    • validation: 9832个样本, 1949231字节
    • test: 9847个样本, 1950703字节

mrpc

  • 特征:
    • sentence1: 字符串
    • sentence2: 字符串
    • label:
      • 0: not_equivalent
      • 1: equivalent
    • idx: int32
  • 分割:
    • train: 3668个样本, 943843字节
    • validation: 408个样本, 105879字节
    • test: 1725个样本, 442410字节

qnli

  • 特征:
    • question: 字符串
    • sentence: 字符串
    • label:
      • 0: entailment
      • 1: not_entailment
    • idx: int32
  • 分割:
    • train: 104743个样本, 25612443字节
    • validation: 5463个样本, 1368304字节
    • test: 5463个样本, 1373093字节

qqp

  • 特征:
    • question1: 字符串
    • question2: 字符串
    • label:
      • 0: not_duplicate
      • 1: duplicate
    • idx: int32
  • 分割:
    • train: 363846个样本, 50900820字节
    • validation: 40430个样本, 5653754字节
    • test: 390965个样本, 55171111字节

rte

  • 特征:
    • sentence1: 字符串
    • sentence2: 字符串
    • label:
      • 0: entailment
      • 1: not_entailment
    • idx: int32
  • 分割:
    • train: 2490个样本, 847320字节
    • validation: 277个样本, 90728字节
    • test: 3000个样本, 974053字节

sst2

  • 特征:
    • sentence: 字符串
    • label:
      • 0: negative
      • 1: positive
    • idx: int32
  • 分割:
    • train: 67349个样本, 4681603字节
    • validation: 872个样本, 106252字节
    • test: 1821个样本, 216640字节

stsb

  • 特征:
    • sentence1: 字符串
    • sentence2: 字符串
    • label: float32
    • idx: int32
  • 分割:
    • train: 5749个样本, 754791字节
    • validation: 1500个样本, 216064字节
    • test: 1379个样本, 169974字节

wnli

  • 特征:
    • sentence1: 字符串
    • sentence2: 字符串
    • label:
      • 0: not_entailment
      • 1: entailment
    • idx: int32
  • 分割:
    • train: 635个样本, 107109字节
    • validation: 71个样本, 12162字节
    • test: 146个样本, 37889字节
AI搜集汇总
数据集介绍
main_image_url
构建方式
GLUE数据集的构建基于多种自然语言理解任务,涵盖了文本分类、自然语言推理、语义相似度评分等多个领域。每个子数据集均经过精心设计,以确保其能够有效评估模型在特定任务上的表现。例如,MNLI数据集通过收集来自不同领域的句子对,并标注其蕴含关系,从而构建了一个大规模的自然语言推理基准。此外,数据集的划分包括训练集、验证集和测试集,以支持模型的训练、调优和评估。
特点
GLUE数据集的一个显著特点是其多样性和综合性。它包含了多个子数据集,每个子数据集针对不同的自然语言理解任务,如情感分析、语义相似度评估和文本蕴含判断。这种多样性使得GLUE成为一个全面的基准,能够评估模型在广泛任务上的性能。此外,数据集的规模适中,介于10K到100K样本之间,确保了数据量既足够用于训练复杂模型,又不至于过大而难以处理。
使用方法
使用GLUE数据集时,用户可以根据具体任务选择相应的子数据集进行模型训练和评估。例如,对于情感分析任务,可以选择SST-2数据集;对于自然语言推理任务,可以选择MNLI数据集。每个子数据集都提供了详细的特征描述和数据字段,用户可以根据这些信息进行数据预处理和模型输入的准备。此外,GLUE还提供了统一的评估指标和基准测试方法,方便用户在不同任务间进行性能比较和模型优化。
背景与挑战
背景概述
GLUE(General Language Understanding Evaluation benchmark)是由纽约大学(NYU)和其合作机构于2018年创建的一个综合性的自然语言理解评估基准。该数据集由多个子任务组成,涵盖了文本分类、自然语言推理、语义相似度评分、情感分类等多个领域。GLUE的核心研究问题是如何全面评估和提升自然语言处理模型的理解能力,其影响力在于为研究人员提供了一个统一的评估平台,促进了模型在多任务环境下的性能提升。
当前挑战
GLUE数据集在构建过程中面临多个挑战。首先,数据集需要涵盖多种语言理解任务,这要求数据来源的多样性和高质量的标注。其次,不同任务之间的数据分布和难度差异较大,如何确保模型在所有任务上都能表现良好是一个难题。此外,GLUE的评估标准需要公正且具有代表性,以避免模型在特定任务上的过拟合。最后,数据集的更新和维护也是一个持续的挑战,以确保其与最新的研究进展保持同步。
常用场景
经典使用场景
GLUE数据集的经典使用场景主要集中在自然语言理解系统的评估与优化。通过包含多种任务,如文本分类、自然语言推理、语义相似度评分等,GLUE为研究人员提供了一个全面的基准,用于测试和比较不同模型的性能。例如,MNLI任务用于评估模型在不同文本来源中的推理能力,而SST-2任务则专注于情感分析,评估模型对文本情感的识别能力。
解决学术问题
GLUE数据集解决了自然语言处理领域中多个关键的学术研究问题。首先,它提供了一个统一的评估框架,使得不同模型在多种任务上的表现可以进行直接比较,从而推动了模型性能的提升。其次,GLUE通过包含多种语言现象和任务类型,帮助研究人员识别和解决模型在特定任务上的不足,促进了自然语言理解技术的全面发展。
衍生相关工作
GLUE数据集的发布催生了大量相关研究工作,包括但不限于模型优化、多任务学习、以及跨任务迁移学习等。例如,BERT模型的提出和优化很大程度上受益于GLUE的评估框架,而后续的RoBERTa、ALBERT等模型也都是在GLUE的基准上进行性能验证和改进。此外,GLUE还激发了其他类似的多任务评估基准的开发,如SuperGLUE,进一步推动了自然语言处理领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

music-genres-dataset

包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录