SQuAD-it-2

Name: SQuAD-it-2
Creator: 意大利帕多瓦大学
Published: 2025-07-01 18:39:07
License: 暂无描述

arXiv2025-07-01 更新2025-07-02 收录

下载链接：

https://github.com/tLabruna/SQuAD-it-2

下载链接

链接失效反馈

官方服务：

资源简介：

SQuAD-it-2数据集由意大利帕多瓦大学的研究团队创建，旨在研究大型语言模型在回答二元问题时可能出现的位置偏差现象。该数据集基于SQuAD-it数据集，并扩展了三个不确定性条件：低、中、高。通过生成二元问答对，研究人员在数据集中引入了错误的答案选项，以控制答案的不确定性。数据集包括7609个低不确定性样本，7609个中不确定性样本，以及7609个高不确定性样本。此外，还使用了WebGPT和Winning Arguments两个数据集，分别用于研究主观判断和论点质量比较中的位置偏差。

The SQuAD-it-2 dataset was created by a research team from the University of Padua, Italy, aiming to investigate positional bias phenomena that large language models may exhibit when answering binary questions. Built upon the original SQuAD-it dataset, it expands the resource with three levels of uncertainty: low, medium, and high. To control the uncertainty of answers, the researchers introduced incorrect answer options into the dataset by generating binary question-answer pairs. The dataset includes 7,609 low-uncertainty samples, 7,609 medium-uncertainty samples, and 7,609 high-uncertainty samples. Additionally, two additional datasets, WebGPT and Winning Arguments, were utilized to study positional bias in subjective judgment and argument quality comparison, respectively.

提供机构：

意大利帕多瓦大学

创建时间：

2025-06-30

原始信息汇总

SQuAD-it-2数据集概述

数据集简介

SQuAD-it-2是对SQuAD-IT数据集的扩展，通过为每个示例添加错误答案，支持在答案合理性检测、多项选择QA或对误导选项的鲁棒性等任务上进行模型评估和训练。

数据集版本

共发布四个增强版本：

1. `squad_it_plausible`

内容：为每个(context, question)对提供看似合理但错误的答案
特点：错误答案设计为上下文相关但事实错误，增加模型区分正确与误导信息的难度

2. `squad_it_ooc`

内容：包含无关或脱离上下文的答案
特点：测试模型拒绝明显错误且无关信息的能力

3. `squad_it_all-wrong_plausible-ooc`

内容：仅包含错误答案，每个(context, question)对提供一个看似合理的错误答案和一个脱离上下文的错误答案
特点：移除正确答案，评估模型是否偏向某类错误响应

4. `squad_it_all-wrong_ooc-ooc`

内容：仅包含错误答案，且两个选项均为脱离上下文
特点：一个为原始无关答案，另一个使用额外提示生成的不同无关答案，用于无有效答案的受控实验

数据结构

每个版本分为train和test两部分
示例字段：
- id：原始SQuAD-it标识符
- context：包含答案的段落
- question：基于上下文的问题
- correct_answer：上下文中的正确答案（仅版本1和2包含）
- wrong_answer：生成的错误答案（看似合理或无关）
- second_wrong_answer：仅all-wrong版本包含（作为替代错误选项）
文件格式：.jsonl（每行一个JSON对象）

应用场景

训练或评估多项选择QA模型
研究位置偏差和答案顺序效应
探索模型鲁棒性对误导或对抗性答案的响应
模拟无正确选项的不确定性场景
创建二元分类器用于正确与错误答案检测
为QA中的对比学习增强数据集

许可证

采用**Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)**许可证

搜集汇总

数据集介绍

构建方式

SQuAD-it-2数据集的构建基于原始SQuAD-it数据集，通过添加错误答案选项并逐步减少上下文信息，形成从低到高不同不确定性的版本。具体而言，低不确定性版本保留上下文并添加一个合理但不正确的答案；中不确定性版本移除上下文，仅提供问题和两个候选答案；高不确定性版本则生成两个完全不相关的错误答案，模拟极端不确定性场景。此外，研究还整合了WebGPT和Winning Arguments两个自然高不确定性数据集，分别基于人类偏好评分和Reddit辩论中的说服力标注。

特点

该数据集的核心特点在于其系统性的不确定性梯度设计，能够量化模型在不同认知压力下的位置偏差表现。SQuAD-it-2通过意大利语构建填补了语言多样性研究的空白，而WebGPT和Winning Arguments则提供了真实场景中的主观判断数据。特别值得注意的是，数据集采用答案顺序翻转的实验设计（Preference Fairness和Position Consistency指标），可精确捕捉模型对选项位置的敏感性。高不确定性条件下的数据样本有效揭示了模型在语义线索缺失时的启发式决策倾向。

使用方法

使用该数据集时需遵循两阶段实验协议：首先以标准顺序（优质答案在前）输入问题与选项组合，记录模型选择；随后交换选项顺序重复实验。通过对比两次输出的差异计算位置偏差指标。对于SQuAD-it-2的不同版本，需严格区分是否包含上下文信息。WebGPT数据要求模型根据支持性、相关性等维度比较答案质量，而Winning Arguments则需评估论证的说服力。所有提示模板均需保持结构一致性，仅改变选项顺序以隔离位置效应的影响。

背景与挑战

背景概述

SQuAD-it-2数据集是由意大利帕多瓦大学和CNR-ISTI的研究团队于2025年基于意大利语SQuAD-it数据集扩展构建的，旨在研究大型语言模型在二元问答任务中的位置偏见现象。该数据集通过系统性地控制答案不确定性（低、中、高三个层级），为分析模型在语义模糊条件下的决策机制提供了标准化基准。其创新性在于首次将位置偏见研究与低资源语言（意大利语）相结合，填补了非英语语境下模型行为研究的空白，对自然语言处理领域的公平性评估和模型鲁棒性优化具有重要价值。

当前挑战

该数据集主要解决二元问答任务中模型位置偏见的量化与归因问题，核心挑战包括：1) 领域问题层面，需区分模型选择是基于语义合理性还是位置启发式，尤其在主观性强的论证类任务（如Winning Arguments）中，模型表现出对第二选项的系统性偏好；2) 构建过程中需精确控制不确定性变量，包括人工生成合理错误答案、设计脱离上下文的干扰项，以及保持意大利语与英语原版SQuAD的语义对等性，这对非英语数据的质量验证提出了更高要求。

常用场景

经典使用场景

SQuAD-it-2数据集在自然语言处理领域中被广泛用于研究大型语言模型在二元问答任务中的位置偏见问题。通过控制不同级别的答案不确定性（低、中、高），该数据集为研究者提供了一个系统评估模型在不同语境下表现的工具。特别是在意大利语环境下，该数据集填补了语言模型偏见研究的空白，成为经典的多语言评估基准之一。

衍生相关工作

SQuAD-it-2数据集衍生了一系列关于位置偏见和模型鲁棒性的经典研究。例如，基于该数据集的工作提出了Preference Fairness (PF) 和 Position Consistency (PC) 等量化指标，成为后续研究的标准评估工具。此外，该数据集还启发了针对多语言环境下模型偏见的跨文化研究，推动了如PORTIA框架和CALM协议等去偏见方法的发展。

数据集最近研究