normalcomputing/wikiqa-counterfactual

Name: normalcomputing/wikiqa-counterfactual
Creator: normalcomputing
Published: 2024-06-05 14:09:42
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/normalcomputing/wikiqa-counterfactual

下载链接

链接失效反馈

官方服务：

资源简介：

Model Card for Long-range Counterfactual WikiQA * Github: https://github.com/normal-computing/extended-mind-transformers/ * ArXiv: https://arxiv.org/abs/2406.02332 Original dataset by Abacus AI. * Developed by: Normal Computing, Adapted from Abacus AI * License: Apache 2.0 ## Long-range Counterfactual Retrieval Benchmark This benchmark is a modified [wikiQA benchmark](https://huggingface.co/datasets/abacusai/WikiQA-Free_Form_QA). The dataset is composed of Wikipedia articles (of 2-16 thousand tokens) and corresponding questions. We modify the dataset by changing the labeled answers to realistic but wrong answers, to control for facts memorized during pre-training. For example, we replace every instance of "Lee Hazlewood" with "Terry Allen" in the Wikipedia entry for the song "These Boots Were Made For Walking", and then ask the model to produce the songwriter's name, with the correct answer now being "Terry Allen". More detail on the dataset creation can be found in the [paper](). ### Splits Splits: 2k, 4k, 8k, 16k ### Column Names - `split`: split the sample is part of - `question`: the query (I.e. "Who wrote the song ...") - `prompt`: the prompt (I.e. "Answer the following question ...") - `document`: the original Wikipedia article - `context`: the edited Wikipedia article - `original_eval`: the original answer (before edits were made) - `answer`: the correct answer (after edits were made) - `n_replacements`: the number of times the `original_eval` was replaced with the `answer` in the `context` --- license: apache-2.0 ---

长距离反事实WikiQA数据集卡片 * GitHub链接：https://github.com/normal-computing/extended-mind-transformers/ * ArXiv论文链接：https://arxiv.org/abs/2406.02332 本数据集源自Abacus AI的原始数据集。 * 开发方：Normal Computing，改编自Abacus AI * 许可协议：Apache 2.0 ## 长距离反事实检索基准集该基准集是经修改的wikiQA基准测试集（wikiQA benchmark），原始数据集可参见：https://huggingface.co/datasets/abacusai/WikiQA-Free_Form_QA。本数据集由2至16千Token的维基百科文章与对应问题构成。我们通过将标注答案替换为看似合理但实则错误的答案，以此实现对模型预训练阶段所记忆事实知识的可控性调控。例如，我们在歌曲《These Boots Were Made For Walking》的维基百科条目中，将所有出现的“Lee Hazlewood”替换为“Terry Allen”，随后向模型提问该歌曲的词曲作者姓名，此时正确答案即为“Terry Allen”。关于数据集构建的更多细节可参见相关论文。 ### 划分方式划分子集规模：2k、4k、8k、16k ### 字段名称 - `split`：样本所属的划分子集 - `question`：查询问题（例如“谁创作了歌曲……”） - `prompt`：提示文本（例如“请回答以下问题……”） - `document`：原始维基百科文章 - `context`：经过编辑的维基百科文章 - `original_eval`：原始标注答案（编辑前的答案） - `answer`：修正后的正确答案（编辑后的答案） - `n_replacements`：在`context`中，`original_eval`被替换为`answer`的次数 --- 许可协议：Apache 2.0 ---

提供机构：

normalcomputing

原始信息汇总

数据集概述

名称: Long-range Counterfactual Retrieval Benchmark

开发机构: Normal Computing, Adapted from Abacus AI

许可证: Apache 2.0

数据集内容

数据来源: 原始数据集由Abacus AI提供，基于WikiQA-Free_Form_QA数据集。
数据构成: 包含Wikipedia文章（2-16千字）和相应的问题。
数据修改: 将标记的答案替换为现实但错误的答案，以控制预训练期间记忆的事实。例如，将“Lee Hazlewood”替换为“Terry Allen”，并要求模型识别歌曲作者。

数据集结构

分割: 2k, 4k, 8k, 16k
列名:
- split: 样本所属的分割
- question: 查询问题
- prompt: 提示信息
- document: 原始Wikipedia文章
- context: 编辑后的Wikipedia文章
- original_eval: 编辑前的原始答案
- answer: 编辑后的正确答案
- n_replacements: 在context中将original_eval替换为answer的次数

数据集用途

用于评估模型在长范围反事实检索任务中的表现，通过提供编辑后的Wikipedia文章和问题，测试模型对预训练记忆事实的控制能力。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型的长程推理与反事实理解能力至关重要。normalcomputing/wikiqa-counterfactual数据集基于原始的WikiQA基准构建，通过系统性地修改维基百科文章中的关键信息，将标注答案替换为看似合理但实际错误的选项，从而构建反事实场景。具体而言，研究人员在长达2千至1.6万词符的文档中，对特定实体名称进行一致性替换，例如在歌曲相关条目中将'Lee Hazlewood'更改为'Terry Allen'，并相应调整问题答案，以消除预训练阶段记忆事实的影响。这一构建过程确保了数据在语义连贯性上的真实性，同时精确控制了反事实条件。

特点

该数据集的核心特点在于其专注于长文档反事实检索任务，文档长度覆盖2千至1.6万词符，模拟了现实世界中处理复杂文本的需求。每个样本包含原始文档、编辑后的上下文、问题及对应答案，并明确记录替换次数，为分析模型对长程依赖的敏感性提供了结构化数据。通过将正确答案设定为反事实版本，数据集有效剥离了模型对预训练知识的依赖，迫使模型依据给定上下文进行推理，从而更精准地评估其理解与检索能力。

使用方法

使用该数据集时，研究者可将其应用于测试语言模型在长文档反事实场景下的检索与问答性能。典型流程包括将编辑后的上下文与问题输入模型，要求模型基于提供的文本生成答案，并与标注的反事实答案进行比较。数据集已按文档长度划分为2k、4k、8k和16k等子集，便于进行不同规模下的评估分析。通过结合原始答案与替换次数字段，用户可进一步探究模型错误模式与文档修改程度之间的关联，为改进长程推理机制提供实证依据。

背景与挑战

背景概述

在自然语言处理领域，长文本理解与推理能力是评估模型智能水平的关键维度。Normal Computing与Abacus AI合作，于2024年推出了WikiQA-Counterfactual数据集，该数据集基于原始的WikiQA自由形式问答基准进行改造，旨在探究大型语言模型在对抗性反事实情境下的知识检索与推理性能。通过系统性地替换维基百科文章中的关键事实，并生成相应的反事实问题，该数据集为研究模型是否真正理解上下文而非依赖预训练记忆提供了重要工具，推动了可解释人工智能与鲁棒性评估的发展。

当前挑战

该数据集核心挑战在于解决长文档反事实推理问题，即要求模型在长达16千令牌的文本中，识别并忽略被篡改的预训练知识，仅依据编辑后的上下文给出正确答案，这对模型的上下文依赖与逻辑推理能力提出了极高要求。构建过程中的挑战则体现在确保反事实编辑的语义连贯性与真实性，需在替换关键实体时维持文本的流畅与合理，避免引入矛盾或歧义，同时精确控制替换次数以量化难度，保障数据集的科学性与评估有效性。

常用场景

经典使用场景

在自然语言处理领域，长文本理解与事实检索任务常受限于模型对预训练知识的依赖。normalcomputing/wikiqa-counterfactual数据集通过构建反事实编辑的维基百科文章，将原始答案替换为合理但错误的替代项，为评估模型在长文档中的事实检索与推理能力提供了经典场景。研究者利用该数据集测试模型是否能够依据编辑后的上下文准确回答查询，而非依赖记忆中的先验知识，从而深入探究模型对长距离依赖关系的处理机制。

解决学术问题

该数据集主要解决了自然语言处理中模型对预训练事实的过度记忆问题，以及长文档环境下事实检索的鲁棒性评估挑战。通过引入反事实编辑，它迫使模型摆脱对静态知识的依赖，转而关注上下文中的动态信息，为研究模型的事实更新能力、长范围推理以及对抗性干扰下的性能提供了严谨的实验平台。其意义在于推动了模型可解释性与泛化能力的研究，促进了更健壮、更依赖上下文的检索系统的发展。

衍生相关工作

围绕该数据集，已衍生出多项关注长文档理解与反事实推理的经典研究工作。例如，相关研究探索了基于检索增强生成（RAG）的架构如何在该基准上优化长距离信息整合，以及Transformer模型在应对编辑后上下文时的注意力机制变化。这些工作进一步推动了模型架构创新，如引入分层注意力或记忆网络，以提升对长文本中细微事实变化的敏感性，并为评估模型的事实一致性设立了新的方法论标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集