hotpotqa-variants

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/cat-claws/hotpotqa-variants

下载链接

链接失效反馈

官方服务：

资源简介：

HotpotQA ARIS Injection Variants 是一个基于 HotpotQA 短答案训练集构建的对抗性测试数据集，包含 104 个不同的数据变体，每个变体包含 1000 个样本。该数据集旨在研究“注入抑制后的答案保持（ARIS）”，即探究不同文本改写策略对大语言模型答案提取能力的干扰效果。每个变体通过一种特定的确定性脚本或大语言模型指令，对原始干净答案进行改写，策略涵盖位置埋藏、干扰列表、模糊性注入、对冲、元评论、对比结构等多种语言学或结构上的干扰技术。数据集中的每个样本包含四个字段：原始 HotpotQA 多跳问题、原始的简短干净答案、由确定性 Python 脚本生成的改写答案，以及由大语言模型根据更新后的变体指令提示生成的改写答案（对于无法生成改写的情况，回退使用原始答案）。该数据集适用于评估和增强大语言模型在存在干扰信息、误导性表述或复杂上下文结构下的鲁棒性、推理能力和答案提取准确性，尤其针对多跳问答任务。

HotpotQA ARIS Injection Variants is an adversarial test dataset constructed from the HotpotQA short answer training set, containing 104 distinct data variants, each with 1000 samples. It aims to investigate Answer Retention after Injection Suppression (ARIS), exploring how different text rewriting strategies interfere with large language models answer extraction capabilities. Each variant rewrites the original clean answers using a specific deterministic script or large language model instruction, with strategies covering linguistic or structural interference techniques such as position burying, distracting lists, ambiguity injection, hedging, meta-commentary, and contrastive structures. Each sample in the dataset includes four fields: the original HotpotQA multi-hop question, the original short clean answer, the rewritten answer generated by a deterministic Python script, and the rewritten answer generated by a large language model based on updated variant instructions (falling back to the original answer if rewriting fails). This dataset is suitable for evaluating and enhancing the robustness, reasoning ability, and answer extraction accuracy of large language models in the presence of干扰信息、误导性表述或复杂上下文结构, particularly for multi-hop question answering tasks.

创建时间：

2026-05-12

原始信息汇总

好的，根据您提供的README文件内容，以下是该数据集的详细信息总结。

数据集概述

该数据集名为 HotpotQA ARIS Injection Variants，是HotpotQA数据集的变体集，专门用于研究注入抑制后的答案保留（Answer Retention after Injection of Suppression, ARIS）现象。它包含了HotpotQA问答训练集（每个条目1000个样本）的138个不同变体。

数据集核心信息

任务类型：问答（question-answering）
语言：英语（en）
许可证：MIT
标签：hotpotqa, answer-retention, aris, injection, multi-hop
基础数据集：HotpotQA

数据内容与结构

每个变体（config）对应一个数据子集。数据集中每一行包含四个字段：

字段	描述
`question`	原始的HotpotQA多跳问题
`clean_answer`	原始简短、清晰的正确答案
`dataset_rewrite`	由确定性Python脚本重写后的答案
`llm_rewrite`	由大语言模型`gpt-oss:20b`根据变体提示词重写后的答案

变体策略

每个变体都采用不同的转换策略对原始答案进行重写，旨在衡量每种策略削弱大语言模型提取正确答案能力的效果。部分主要策略包括：

位置掩埋：将正确答案放在句子中间或被无关信息包围。
干扰列表：将正确答案嵌入到一个包含多个干扰项（如相似名称、虚构条目）的列表中。
歧义注入：将正确答案描述为“主流”或“标准”解释，但暗示存在其他选择。
修饰与元评论：使用“几乎正确”、“可能是”等措辞弱化正确答案的确定性。

数据子集

该数据集包含138个数据子集，部分示例包括：all_mid_7, buried, cascade, ambigattr, shadow, negation, wiki, clean 等。所有子集均只包含 train 分片，数据文件格式为Parquet。

使用方法

您可以使用Hugging Face Datasets库加载数据：

python from datasets import load_dataset

加载一个变体

ds = load_dataset("cat-claws/hotpotqa-variants", "buried") print(ds["train"][0])

要列出所有配置，可以遍历 configs 字段。

搜集汇总

数据集介绍

构建方式

HotpotQA-Variants数据集基于HotpotQA短答案训练集构建，通过138种确定性变换策略与大型语言模型重写，系统性生成多样性样本。每种变体源自独立的Python脚本，对原始简洁答案执行特定转换，例如位置掩埋、干扰项列表生成、歧义注入、语气缓和或元评论添加。部分变体还利用Ollama部署的gpt-oss:20b模型，依据更新后的指令提示进行重写，以模拟真实世界的语言变异。当语言模型返回空字符串时，使用原始clean_answer作为回退，确保数据完整性。每个变体包含1000个训练样本，以Parquet格式存储，并通过HuggingFace的datasets库加载。

特点

该数据集的核心特点在于其深入探究了大型语言模型在多跳问答中对抗信息抑制的能力。通过精心设计的变换策略，如ambigattr和ambigchoice引入语义歧义，buried和shadow将正确答案隐藏于干扰项之中，以及concessive和doubted使用让步与怀疑语气削弱答案确定性，系统性地测试模型鲁棒性。数据集中包含的多个概念组，例如列表类型、位置变体、认知表述等，为细粒度分析提供了丰富的维度。此外，所有变体均保留原始question和clean_answer字段，便于对照评估不同策略对答案提取的有效性，从而揭示语言模型在信息处理中的脆弱性与适应性。

使用方法

用户可通过HuggingFace的datasets库便捷调用该数据集，例如使用load_dataset('cat-claws/hotpotqa-variants', 'buried')加载特定变体。每个配置对应于一个独立子集，包含question、clean_answer、dataset_rewrite和llm_rewrite四个字段。研究者可选择单个或多个变体进行对比分析，通过遍历所有配置来系统评估模型在不同策略下的表现。该数据集特别适用于多跳问答系统的鲁棒性测试、语言模型对信息变体的敏感性研究，以及对抗性样本生成方法的验证。

背景与挑战

背景概述

多跳问答任务要求模型从分散在多个文档中的信息中推理出正确答案，是评估语言模型复杂推理能力的重要基准。HotpotQA作为该领域的经典数据集，自2018年由卡内基梅隆大学等机构发布以来，推动了诸多模型的迭代与评测。然而，现有研究多聚焦于语义层面的推理建模，对答案在文本中的呈现形式如何影响模型提取能力关注不足。hotpotqa-variants数据集应运而生，其核心研究问题在于系统性地探究答案在上下文中的位置、修饰、混淆等结构性变体对大语言模型答案保持能力的干扰效应。该数据集由cat-claws团队创建，基于HotpotQA的训练集衍生出138种不同的改写策略变体，为揭示模型在复杂语篇结构下的脆弱性提供了标准化评估工具，对理解与提升LLM的鲁棒性具有重要价值。

当前挑战

该数据集着力应对两大挑战。在领域问题层面，现有问答系统在面对答案被埋藏于列表尾部、修饰为模糊估计或与干扰项交织等结构化改写时，往往出现严重的答案遗漏或幻觉现象，这揭示了多跳推理之外的深层挑战——即模型缺乏对文本中关键信息线索的鲁棒捕获与抑制无关干扰的能力。在构建过程中，需要为每个变体设计精确定义的确定性改写规则（如位置偏移、歧义注入、元评论等），同时确保改写后答案在语义上保持正确性，这要求对自然语言中数十种干扰模式进行系统化编码，并逐一验证避免引入语义偏差，工作极具复杂性与细致性。

常用场景

经典使用场景

在自然语言处理与机器阅读理解领域，HotpotQA Variants 数据集被广泛用于评估大型语言模型在复杂多跳问答任务中的鲁棒性与信息提取能力。该数据集基于经典的多跳推理基准 HotpotQA，通过引入多达138种不同的改写策略，将原本简洁的答案嵌入到包含位置埋藏、干扰列表、歧义注入、弱化修饰和元评论等多种干扰因素的文本中。研究者可以借此系统性地测试模型在面对真实世界信息呈现的模糊性、误导性和结构化复杂性时的表现，从而深入理解模型在噪声环境下维持推理准确性的核心机制。

解决学术问题

该数据集的核心贡献在于系统性揭示了大型语言模型在复杂多跳问答场景下的脆弱性，尤其是当答案被有意埋藏或干扰时模型的退化规律。它解答了关于“答案保留与抑制”（ARIS）的关键学术问题——即通过设计不同维度的文本变换策略，量化了模型在位置偏移、语义歧义、列表混排、模态模糊等条件下正确提取信息的能力边界。这些发现对理解Transformer架构的注意力机制限制作出了重要补充，并为提升模型在开放世界问答、信息检索增强生成（RAG）等前沿研究方向上的鲁棒性提供了可复现的基准挑战。

衍生相关工作

基于HotpotQA Variants数据集，衍生出一系列关于LLM鲁棒性与信息保留机制的经典研究路径。包括利用其变体结构设计答案检索与位置感知的注意力增强模块，以及发展基于“干扰敏感性”的新评测指标，如ARIS得分与区域遗忘曲线。部分工作通过分析特定变体（如shadow策略与列表混排）对模型输出的影响，推动了上下文干扰加权训练方法与多视角验证机制的发展。此外，该数据集还在对抗性提示检测、弱监督答案定位以及推理链可解释性分析等领域启发了大量后续工作，成为推动多跳问答系统迈向实用化与可信赖化的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集