GQNLI
收藏github2022-05-19 更新2024-05-31 收录
下载链接:
https://github.com/ruixiangcui/GQNLI
下载链接
链接失效反馈官方服务:
资源简介:
GQNLI是一个用于测试语言模型通用量化推理能力的评估语料库,包含30个前提和300个假设。该数据集旨在通过对抗性通用量化NLI任务,揭示预训练语言模型在通用量化推理方面的明显不足。
GQNLI is an evaluation corpus designed to test the general quantitative reasoning capabilities of language models, comprising 30 premises and 300 hypotheses. This dataset aims to reveal the significant shortcomings of pre-trained language models in general quantitative reasoning through adversarial general quantitative NLI tasks.
创建时间:
2022-04-12
原始信息汇总
GQNLI: The Generalized Quantifier NLI Challenge Dataset
数据集概述
GQNLI是一个旨在测试语言模型在处理广义量词推理能力方面的评估语料库。该数据集包含30个前提和300个假设,用于直接针对性地探测语言模型在广义量词推理上的鲁棒性。
数据集构建
- 前提选择:从SNLI和ANLI测试集中随机抽样100个包含广义量词的前提,并从中选出10个语义上适合添加广义量词并构建简单假设的前提。
- 假设构建:使用在MNLI上微调的RoBERTa模型,手动选择模型不确定或错误的例子。标签均匀分布。
- 数据增强:通过替换非量词词汇(如将“dogs”替换为“cats”)来增加样本量,同时保持标签不变,以排除特定词汇项的影响。
数据集下载
版本1.0的数据集存储在名为gqnli-1.0.zip的文件中,可供下载。
数据集引用
若使用此数据集,请引用以下文献: bibtex @inproceedings{cui-etal-2022-generalized, title = "Generalized Quantifiers as a Source of Error in Multilingual NLU Benchmarks", author = "Cui, Ruixiang and Hershcovich, Daniel and S{o}gaard, Anders", booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", year = "2022", publisher = "Association for Computational Linguistics", address = "Seattle, USA", }
搜集汇总
数据集介绍

构建方式
GQNLI数据集的构建过程基于广义量词理论,旨在评估语言模型在广义量词推理上的能力。首先,从SNLI和ANLI测试集中随机抽取包含广义量词的100个前提,并从中筛选出10个语义上适合添加广义量词并生成简单假设的前提。接着,利用在MNLI上微调的RoBERTa模型生成假设,并手动选择模型不确定或错误的示例。最后,通过替换非量词词汇(如将“dogs”替换为“cats”)对示例进行两倍扩充,以排除特定词汇对结果的影响。
特点
GQNLI数据集的特点在于其专注于广义量词推理能力的评估,包含30个前提和300个假设,标签分布均匀。通过从现有NLI数据集中筛选和扩充,确保了数据集的多样性和挑战性。此外,数据集的构建方法避免了特定词汇对模型性能的干扰,使其能够更准确地反映模型在广义量词推理上的表现。
使用方法
GQNLI数据集主要用于评估语言模型在广义量词推理任务上的性能。用户可以通过下载`gqnli-1.0.zip`文件获取数据集,并利用其进行模型训练和测试。数据集提供了丰富的示例,用户可以通过替换词汇等方式进一步扩充数据。此外,用户还可以将模型性能提交至官方排行榜,以与其他模型进行比较。使用该数据集时,需引用相关文献以尊重作者的知识产权。
背景与挑战
背景概述
GQNLI数据集由Ruixiang Cui、Daniel Hershcovich和Anders Søgaard等研究人员于2022年创建,旨在评估语言模型在广义量词推理能力上的表现。该数据集基于广义量词理论,旨在量化量词对自然语言理解(NLU)模型错误的影响。GQNLI的构建灵感来源于SNLI和ANLI数据集,通过选择包含广义量词的前提和假设,形成对抗性推理任务。该数据集的发布为研究语言模型在量词语义理解上的局限性提供了重要工具,推动了NLU领域对量词推理能力的深入研究。
当前挑战
GQNLI数据集的核心挑战在于解决语言模型在广义量词推理上的不足。尽管广义量词在自然语言中普遍存在,但现有模型在处理包含量词的句子时表现显著下降。数据集的构建过程中,研究人员面临的主要挑战包括如何选择语义合适的前提和假设,以及如何通过对抗性样本增强模型的鲁棒性。此外,数据集的规模较小,仅包含30个前提和300个假设,可能限制了其广泛应用的潜力。如何扩展数据集规模并进一步提升模型的泛化能力,是未来研究的重要方向。
常用场景
经典使用场景
GQNLI数据集主要用于评估语言模型在处理广义量词推理任务中的表现。通过构建包含广义量词的自然语言推理(NLI)任务,该数据集能够有效测试模型在复杂语义理解中的鲁棒性。其经典使用场景包括在自然语言理解(NLU)模型的训练和评估中,特别是在涉及量词推理的语境下,帮助研究者识别模型在处理这些语义结构时的弱点。
实际应用
在实际应用中,GQNLI数据集可用于提升智能对话系统、机器翻译以及信息检索等领域的性能。例如,在智能客服系统中,模型需要准确理解用户查询中的量词含义,以避免误解或错误响应。通过利用GQNLI数据集进行针对性训练,模型能够在处理包含量词的复杂查询时表现出更高的准确性和鲁棒性,从而提升用户体验。
衍生相关工作
GQNLI数据集的发布催生了一系列相关研究,特别是在自然语言推理和广义量词语义理解领域。例如,基于GQNLI的研究工作进一步探索了多语言环境下量词推理的挑战,并提出了改进模型鲁棒性的新方法。此外,该数据集还被用于评估和比较不同预训练语言模型(如DeBERTa、BART和RoBERTa)在量词推理任务中的表现,推动了相关技术的进步。
以上内容由遇见数据集搜集并总结生成



