inverse-scaling/NeQA

Hugging Face2022-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/inverse-scaling/NeQA

下载链接

链接失效反馈

资源简介：

NeQA数据集是一个用于测试大型语言模型是否能够理解多选问题中否定现象的数据集。该数据集通过对现有的多选问题数据集中的问题进行部分否定生成，旨在观察语言模型在面对否定时的表现。数据集生成过程包括对OpenBookQA数据集中的问题进行规则转换，添加否定词并交换正确答案和错误答案。该任务的重要性在于揭示了当前语言模型在理解否定这一常见语言现象上的不足，这对于实现真正的自然语言理解至关重要。

提供机构：

inverse-scaling

原始信息汇总

数据集概述

名称: NeQA - Can Large Language Models Understand Negation in Multi-choice Questions?

语言: 英语（monolingual）

大小: 10K<n<100K

许可证: cc-by-sa-4.0

任务类别:

多选题
问答
零样本分类

训练与评估索引:

配置: inverse-scaling--NeQA
任务: 文本生成
任务ID: text_zero_shot_classification
分割:
- 评估分割: 训练
列映射:
- prompt: 文本
- classes: 类别
- answer_index: 目标

数据集描述

目的: 评估大型语言模型对多选题中否定词的理解能力。

方法: 通过否定部分问题来测试语言模型的敏感性。研究发现，较小的语言模型表现接近随机，而较大的模型表现显著低于随机。

示例: 问题涉及常识，如“如果猫的体温低于平均水平，它不在...”，模型应选择“安全范围”。

数据集生成: 通过规则转换公开的多选题数据集OpenBookQA，筛选包含“is”的问题并添加“not”，调整正确与错误答案。

预期结果: 预期大型语言模型在理解否定方面表现不佳，显示出逆向缩放趋势，即模型越大，在理解否定方面的表现越差。

重要性: 此任务揭示了当前语言模型在理解常见语言现象——否定方面的局限性，对自然语言理解具有重要意义。

5,000+

优质数据集

54 个

任务类型

进入经典数据集