GLUE|自然语言理解数据集|多任务学习数据集

arXiv2023-11-07 更新2024-08-06 收录

自然语言理解

多任务学习

下载链接：

http://arxiv.org/abs/2311.04044v1

下载链接

链接失效反馈

资源简介：

GLUE数据集是一个用于自然语言理解（NLU）的多任务基准，包含多个子任务，如自然语言推理（MNLI）、斯坦福情感树库v2（SST2）和QNLI等。该数据集由多个研究机构共同创建，旨在评估语言模型在不同NLU任务上的性能。创建过程中，数据集通过众包方式收集和标注，确保了数据的质量和多样性。GLUE数据集广泛应用于语言模型的评估和比较，特别是在隐私保护语言模型（PPLMs）的研究中，用于测试模型在保护隐私的同时保持性能的能力。

提供机构：

香港科技大学

创建时间：

2023-11-07

AI搜集汇总

数据集介绍

构建方式

GLUE数据集的构建基于多任务学习框架，汇集了九个自然语言理解任务的数据，包括文本分类、句子对相似度评估和自然语言推理等。这些任务的数据来源于公开可用的语料库，如Stanford Sentiment Treebank、MultiNLI和SQuAD等。通过统一的数据格式和评估标准，GLUE旨在为研究人员提供一个全面且标准化的测试平台，以评估和比较不同自然语言处理模型的性能。

特点

GLUE数据集的显著特点在于其多样性和综合性。它涵盖了多种自然语言理解任务，从简单的情感分析到复杂的句子关系推理，为模型提供了广泛的训练和测试场景。此外，GLUE的评估标准统一，使得不同模型在同一基准上的性能可以直接比较，增强了研究的透明度和可重复性。

使用方法

使用GLUE数据集时，研究人员首先需要根据任务类型选择相应的子数据集，并按照GLUE提供的格式进行数据预处理。随后，可以利用这些数据训练和验证自然语言处理模型。GLUE还提供了统一的评估脚本，用于计算模型在各个任务上的性能指标，如准确率、F1分数等。通过这种方式，研究人员可以系统地评估和改进其模型的泛化能力和鲁棒性。

背景与挑战

背景概述

GLUE（General Language Understanding Evaluation）数据集由纽约大学、华盛顿大学和DeepMind的研究团队于2018年联合创建，旨在为自然语言理解任务提供一个综合评估平台。该数据集汇集了九个不同的语言理解任务，包括文本分类、语义相似度评估和自然语言推理等，涵盖了从单句理解到多句交互的广泛应用场景。GLUE的推出极大地推动了自然语言处理领域的发展，为研究人员提供了一个标准化的基准，促进了模型性能的比较和提升。

当前挑战

GLUE数据集在构建过程中面临多重挑战。首先，不同任务的数据分布和难度差异显著，如何确保数据集的多样性和代表性是一个关键问题。其次，任务间的关联性和互补性需要精心设计，以避免模型在某些任务上过度拟合。此外，GLUE的评估标准需要不断更新，以适应快速发展的自然语言处理技术。最后，数据集的公开性和可访问性也是一大挑战，确保所有研究人员都能公平地使用和评估模型性能。

发展历史

创建时间与更新

GLUE数据集由纽约大学于2018年创建，旨在为自然语言理解任务提供一个统一的评估框架。该数据集自发布以来，经历了多次更新，以适应不断发展的自然语言处理技术。

重要里程碑

GLUE的发布标志着自然语言处理领域的一个重要里程碑，它首次将多个不同任务的数据集整合到一个统一的评估框架中，极大地促进了模型在多任务学习中的应用。随着BERT等预训练模型的出现，GLUE迅速成为评估这些模型性能的标准基准，推动了自然语言处理技术的快速发展。此外，GLUE还激发了更多类似的多任务评估数据集的创建，如SuperGLUE，进一步扩展了其影响力。

当前发展情况

当前，GLUE数据集仍然是自然语言处理领域的重要基准之一，尽管面对SuperGLUE等更复杂数据集的挑战，GLUE依然在评估基础模型性能方面发挥着关键作用。其持续的更新和扩展，确保了它能够反映最新的研究进展和技术趋势。GLUE不仅为研究人员提供了一个标准化的评估平台，还促进了不同模型之间的公平比较，从而推动了整个领域的技术进步。

发展历程

GLUE数据集首次发表，由纽约大学、华盛顿大学和DeepMind的研究团队共同推出，旨在评估自然语言理解模型的通用性能。
2018年
GLUE基准测试成为自然语言处理领域的重要评估标准，推动了BERT等预训练语言模型的发展和应用。
2019年
随着模型性能的提升，GLUE基准测试的挑战性逐渐降低，促使研究者开发更具挑战性的SuperGLUE基准测试。
2020年

常用场景

经典使用场景

在自然语言处理领域，GLUE（General Language Understanding Evaluation）数据集被广泛用于评估和比较各种语言理解模型的性能。该数据集包含九个不同的任务，涵盖了文本分类、语义相似度、文本蕴含等多个方面。通过在GLUE上进行训练和测试，研究人员能够全面评估模型在不同语言理解任务中的表现，从而推动自然语言处理技术的发展。

实际应用

GLUE数据集在实际应用中具有广泛的价值。例如，在智能客服系统中，GLUE训练的模型可以用于理解用户查询并提供准确的回答；在情感分析中，GLUE模型能够识别文本中的情感倾向，帮助企业进行市场分析和用户反馈处理。此外，GLUE还在机器翻译、文本摘要等领域展现了其应用潜力，推动了自然语言处理技术的实际应用。

衍生相关工作

GLUE数据集的推出激发了大量相关研究工作。例如，BERT（Bidirectional Encoder Representations from Transformers）模型在GLUE基准上取得了显著的性能提升，成为自然语言处理领域的里程碑。随后，许多基于BERT的改进模型，如RoBERTa、ALBERT等，也在GLUE上进行了评估和比较。这些工作不仅推动了模型性能的提升，还为自然语言处理领域的研究提供了新的方向和思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录