five

GLUE-X|自然语言处理数据集|模型评估数据集

收藏
github2022-11-01 更新2025-02-07 收录
自然语言处理
模型评估
下载链接:
https://github.com/YangLinyi/GLUE-X
下载链接
链接失效反馈
资源简介:
GLUE-X数据集包含8个训练数据集和16个评估数据集,所有训练数据集均来源于GLUE。它用于评估模型在经典自然语言处理任务中的分布外(OOD)性能,涵盖语法判断、情感分析、语义匹配、文本蕴含和阅读理解等领域。

The GLUE-X dataset encompasses 8 training datasets and 16 evaluation datasets, all of which are sourced from GLUE. It is designed to assess the out-of-distribution (OOD) performance of models across classic natural language processing tasks, including syntax judgment, sentiment analysis, semantic matching, text entailment, and reading comprehension.
提供机构:
Westlake University et al.
创建时间:
2022-11-01
原始信息汇总

GLUE-X数据集概述

数据集简介

  • 包含14个公开可用的数据集作为OOD测试数据
  • 覆盖8个经典NLP任务
  • 评估了常用模型在分布外(OOD)场景下的性能表现

主要发现

  • NLP任务中的OOD准确率需要更多关注
  • 所有实验设置中都观察到OOD准确率相比ID准确率显著下降

数据获取

  • OOD测试数据下载地址:https://drive.google.com/drive/folders/1BcwjmVOqq96igfbB2MCXwLzthFX7XEhy

模型微调

  • 参考Hugging Face Transformer提供的示例进行自定义模型微调

贡献者

  • Shuibai Zhang:代码实现与实验执行
  • Linyi Yang:指导与实验设计
  • Wei Zhou:网站实现

引用信息

bibtex @article{yang2022glue, title={GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective}, author={Yang, Linyi and Zhang, Shuibai and Qin, Libo and Li, Yafu and Wang, Yidong and Liu, Hanmeng and Wang, Jindong and Xie, Xing and Zhang, Yue}, journal={arXiv preprint arXiv:2211.08073}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
GLUE-X数据集的构建基于14个公开可用的数据集,这些数据集被用作分布外(OOD)测试数据,涵盖了8种经典的自然语言处理任务。通过对比模型在分布内(ID)和分布外(OOD)环境下的表现,研究者们揭示了模型在OOD环境下的性能显著下降的现象,从而强调了在自然语言处理任务中关注OOD准确性的重要性。
特点
GLUE-X数据集的特点在于其专注于评估自然语言理解模型在分布外环境下的泛化能力。该数据集不仅提供了丰富的OOD测试数据,还通过对比不同模型在ID和OOD环境下的表现,揭示了模型在OOD环境下的性能衰减现象。这一特点使得GLUE-X成为研究模型泛化能力的理想工具。
使用方法
使用GLUE-X数据集时,研究者可以通过Hugging Face Transformer提供的示例代码对自定义语言模型进行微调。此外,所有OOD测试数据均可通过提供的Google Drive链接获取。通过这种方式,研究者可以轻松地将GLUE-X数据集应用于自然语言处理模型的训练和评估,从而深入探讨模型在分布外环境下的表现。
背景与挑战
背景概述
GLUE-X数据集由Shuibai Zhang、Linyi Yang和Wei Zhou等研究人员于2022年创建,旨在评估自然语言理解模型在分布外(Out-of-Distribution, OOD)场景下的泛化能力。该数据集整合了14个公开可用的数据集,涵盖了8个经典的自然语言处理任务,旨在揭示模型在OOD测试中的性能衰减现象。通过对比模型在分布内(In-Distribution, ID)和分布外的表现,GLUE-X为自然语言处理领域的研究提供了新的视角,推动了模型泛化能力的研究进展。该数据集的研究成果已在arXiv上发布,并得到了广泛关注。
当前挑战
GLUE-X数据集的核心挑战在于如何有效评估自然语言理解模型在分布外场景下的泛化能力。尽管模型在分布内数据上表现出色,但在面对分布外数据时,性能往往显著下降。这一现象揭示了当前模型在泛化能力上的局限性。此外,构建GLUE-X数据集的过程中,研究人员需要整合多个异构数据集,确保数据的一致性和可比性,同时还要设计合理的评估指标,以准确反映模型在OOD场景下的表现。这些挑战不仅推动了数据集构建技术的发展,也为自然语言处理领域的模型优化提供了新的研究方向。
常用场景
经典使用场景
GLUE-X数据集在自然语言处理(NLP)领域中被广泛用于评估模型在分布外(OOD)数据上的泛化能力。通过整合14个公开数据集,GLUE-X为8种经典NLP任务提供了标准化的测试环境,帮助研究者深入理解模型在面对未见过的数据时的表现。这一数据集的使用场景主要集中在模型鲁棒性评估、跨领域迁移学习以及模型泛化能力的系统性研究上。
衍生相关工作
GLUE-X数据集的发布催生了一系列关于NLP模型泛化能力的研究工作。例如,基于GLUE-X的实验结果,研究者提出了多种改进模型泛化能力的方法,如领域自适应、数据增强和鲁棒性训练策略。此外,GLUE-X还为跨领域迁移学习和多任务学习的研究提供了重要的基准数据,推动了NLP领域在模型鲁棒性和泛化能力方面的理论探索和技术创新。
数据集最近研究
最新研究方向
在自然语言处理(NLP)领域,模型的泛化能力一直是研究的核心议题之一。GLUE-X数据集的推出,为研究者在分布外(OOD)泛化问题上提供了新的视角和工具。该数据集整合了14个公开数据集,覆盖了8个经典NLP任务,旨在评估模型在面对未见过的数据分布时的表现。研究发现,与分布内(ID)数据相比,模型在OOD数据上的性能显著下降,这一现象凸显了当前NLP模型在泛化能力上的局限性。GLUE-X的引入不仅推动了OOD泛化问题的深入研究,还为模型优化和评估提供了新的基准,具有重要的理论和实践意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录