BoardgameQA

Name: BoardgameQA
Creator: 谷歌研究院
Published: 2023-06-14 01:39:20
License: 暂无描述

arXiv2023-06-14 更新2024-06-21 收录

下载链接：

https://storage.googleapis.com/gresearch/BoardgameQA/BoardgameQA.zip

下载链接

链接失效反馈

官方服务：

资源简介：

BoardgameQA是由谷歌研究院开发的一个用于评估语言模型在处理矛盾信息时推理能力的数据集。该数据集模拟了现实世界中常见的信息不一致或矛盾的情况，要求模型根据信息源的偏好（如可信度或信息时效性）来解决冲突。数据集中的每个示例包含一个可废止理论（一组输入事实、可能矛盾的规则以及对规则的偏好）和一个关于该理论的问题。回答这些问题需要多跳推理和冲突解决。此外，BoardgameQA还包含了需要模型自身提供部分背景知识的场景，以更好地反映下游应用中的推理问题。该数据集旨在揭示当前语言模型在处理矛盾和信息不完整情况下的推理能力差距，并为未来研究提供基准。

BoardgameQA is a dataset developed by Google Research to evaluate the reasoning capabilities of language models when handling contradictory information. This dataset simulates common information inconsistency and contradiction scenarios in real-world settings, requiring models to resolve conflicts based on the preferences of information sources such as their credibility or timeliness. Each example in the dataset consists of a defeasible theory (a collection of input facts, potentially contradictory rules, and preferences assigned to these rules) and a question related to this theory. Answering these questions demands multi-hop reasoning and conflict resolution capabilities. Furthermore, BoardgameQA also incorporates scenarios where models need to provide partial background knowledge independently, to better mirror reasoning challenges in downstream applications. This dataset aims to uncover the reasoning capability gaps of current language models when dealing with contradictions and incomplete information, and serve as a benchmark for future research.

提供机构：

谷歌研究院

创建时间：

2023-06-14

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，处理矛盾信息的能力是评估模型鲁棒性的关键。BoardgameQA数据集的构建采用了一种逆向故事生成策略，以棋盘游戏为背景，生成包含可废止理论的示例。每个示例由一组事实、可能矛盾的规则及规则间的偏好关系构成，并通过算法控制推理深度、冲突类型与数量等难度因素。数据生成过程从采样目标问题开始，递归地构建子问题和规则，同时引入冲突与不完整信息，确保理论的一致性与多样性。最终，通过预定义的模板将逻辑形式转化为自然语言文本，形成结构化的问答对。

特点

BoardgameQA数据集的核心特点在于其专注于可废止推理场景，即模型需在信息源存在矛盾时依据偏好进行冲突消解。数据集巧妙融入了不完整知识要素，要求模型依赖自身隐式背景知识完成推理，从而更贴近现实应用。此外，通过精细控制冲突类型（如Type1与Type2）、推理深度及干扰信息数量，数据集支持对模型推理能力的多维度评估。其合成性质保证了示例的复杂性与可控性，同时棋盘游戏主题使得复杂规则的自然语言表述显得自然而连贯。

使用方法

BoardgameQA数据集主要用于评估语言模型在矛盾信息下的自然语言推理能力。使用者可将其应用于模型微调、提示工程或小样本学习等场景，通过分类任务（证明、证伪或未知）衡量模型的推理准确性。数据集的多样化版本（如不同冲突比例、知识缺失程度）支持针对性实验，以探究模型在特定难点上的表现。此外，数据集提供的证明链允许进行更细致的分析，如规则选择与冲突消解的准确性，从而深入诊断模型推理的薄弱环节。为确保评估的严谨性，建议结合自动化指标与人工验证，全面考察模型的推理质量。

背景与挑战

背景概述

BoardgameQA数据集由Google Research团队于2023年提出，旨在评估语言模型在存在矛盾信息场景下的自然语言推理能力。该数据集以可废止推理为理论基础，模拟现实世界中信息源冲突的常见情境，要求模型依据预设偏好解决规则间的矛盾。其核心研究问题聚焦于语言模型如何处理不一致、不完整的知识输入，并执行多跳推理与冲突消解。BoardgameQA通过合成棋盘游戏情境构建复杂逻辑规则，同时引入隐含背景知识需求，以更贴近实际应用场景。该数据集填补了现有推理基准在矛盾信息处理方面的空白，为提升语言模型的鲁棒性提供了重要评估工具。

当前挑战

BoardgameQA所针对的领域挑战在于语言模型对矛盾信息的推理能力不足。现有模型通常在一致知识假设下表现良好，但面对冲突信息时难以有效执行基于偏好的消解策略，尤其在少样本设置中性能显著下降。构建过程中的挑战包括：设计可自动控制难度的合成数据生成算法，确保逻辑一致性与可废止理论的无矛盾性；平衡规则冲突类型与比例，以覆盖多样化的推理场景；整合隐含知识需求，如时间转换、空间关系等，要求模型调用外部常识进行补充推理；以及避免训练与测试集间的词汇重叠，防止模型通过记忆而非推理获得答案。

常用场景

经典使用场景

在自然语言推理领域，BoardgameQA数据集被广泛应用于评估语言模型在存在矛盾信息情境下的可废止推理能力。该数据集通过模拟棋盘游戏场景，构建包含冲突规则和偏好关系的理论框架，要求模型在多重推理跳转中解决信息矛盾，同时处理隐含的背景知识。这种设置使得BoardgameQA成为测试模型在非单调逻辑环境下推理性能的经典基准，尤其适用于探究模型如何依据源偏好（如信息时效性或可信度）来化解冲突，从而推动可废止推理研究的前沿发展。

衍生相关工作

BoardgameQA催生了多项关于可废止推理与语言模型结合的创新研究。基于其冲突解决框架，后续工作扩展了条件问答数据集ConditionalQA的矛盾处理维度；在推理方法层面，研究者开发了融合可废止逻辑的形式化验证工具，增强了链式思维提示的可靠性。同时，该数据集启发了对预训练模型隐式偏好学习机制的研究，推动如LAMBADA等向后链推理系统的改进。这些衍生工作共同深化了对语言模型非单调推理能力的理解，并为构建具有矛盾容忍能力的神经符号系统提供了新范式。

数据集最近研究