five

REVEAL

收藏
arXiv2024-05-21 更新2024-06-19 收录
下载链接:
https://github.com/VulDetProject/ReVeal
下载链接
链接失效反馈
官方服务:
资源简介:
REVEAL数据集是由谷歌研究院创建的,用于评估自动验证复杂思维链推理的基准数据集。该数据集包含704个独特问题,来自4个流行的问答数据集,由3个语言模型生成的1002个CoT答案,总计3360个CoT步骤。每个步骤都标注了相关性、证据归属和逻辑正确性,旨在解决在开放域问答设置中自动验证思维链推理的问题。

The REVEAL dataset is a benchmark dataset developed by Google Research for evaluating automated verification of complex chain-of-thought (CoT) reasoning. It consists of 704 unique questions sourced from four popular question answering (QA) datasets, accompanied by 1002 CoT answers generated by three language models, totaling 3360 CoT reasoning steps. Each individual step is annotated with relevance, evidence attribution, and logical correctness. The core objective of this dataset is to address the challenge of automated verification of chain-of-thought reasoning in open-domain QA settings.
提供机构:
谷歌研究院
创建时间:
2024-02-01
搜集汇总
数据集介绍
main_image_url
构建方式
在复杂推理任务评估领域,REVEAL数据集的构建遵循了系统化、多阶段的严谨流程。首先,研究团队从四个开放域复杂问答数据集中随机选取704个问题,并利用三种不同规模的语言模型生成链式思维推理答案,共获得1002个答案,涵盖3360个推理步骤。随后,针对每个归因步骤,采用混合检索策略从维基百科获取最多三个证据段落,并结合去语境化处理以提升证据相关性。最终,通过双任务标注协议,由多名标注者独立完成对每个推理步骤的相关性、类型、逻辑正确性及归因准确性的精细标注,并辅以自由文本的标注理由,确保了数据的高质量与可解释性。
特点
REVEAL数据集的核心特点在于其精细的层次化标注体系与广泛的覆盖范围。该数据集对每个推理步骤进行了多维度标注,包括步骤与最终答案的相关性、步骤类型(归因步骤、逻辑步骤或两者兼具)、逻辑正确性,以及归因步骤相对于外部证据的支持程度。其标注结果分为高一致性的REVEAL-Eval子集与包含边界案例的REVEAL-Open子集,为研究提供了可靠的评估基准与挑战性样本。此外,数据集涵盖了多种推理技能、知识领域与问题类型,并包含由不同模型生成的多样答案,为全面评估推理验证方法提供了丰富且具代表性的数据基础。
使用方法
REVEAL数据集主要用于评估自动验证器对复杂链式思维推理的质量。研究者可利用该数据集在多个层面进行评测:在步骤层面,评估模型对归因步骤与证据之间蕴含关系的判断能力,或对逻辑步骤推理正确性的分类性能;在完整推理链层面,综合各步骤的验证结果以判断整个推理链的正确性。数据集提供的精细标注与自由文本理由,也可支持自然语言推理、事实核查、解释生成等相关领域的研究。使用时应遵循数据集的划分,在REVEAL-Eval上进行主要性能评估,并利用REVEAL-Open分析模型在困难案例上的表现。
背景与挑战
背景概述
在复杂推理任务中,语言模型通过生成逐步推理链(如思维链)来提升答案准确性,已成为主流范式。然而,自动验证这些推理步骤正确性的方法缺乏细粒度、步骤级别的评估基准,制约了该方向的研究进展。为此,谷歌研究团队于2024年推出了REVEAL(推理验证评估)数据集,旨在为开放域问答场景中的复杂思维链验证器提供标准化评测平台。该数据集汇集了来自多个知名问答数据集的704个独特问题,以及由三种前沿语言模型生成的1002条思维链答案,共计3360个推理步骤。每个步骤均标注了与最终答案的相关性、归因于外部证据的程度以及逻辑正确性,并附有注释者撰写的自由文本理由。REVEAL的构建不仅填补了该领域高质量评估数据的空白,也为推动可验证、可归因的推理模型发展奠定了坚实基础。
当前挑战
REVEAL数据集致力于解决复杂推理链的自动验证问题,其核心挑战在于对多步骤推理中知识归因与逻辑一致性的细粒度评估。具体而言,验证器需精准判断每一步骤是否与问题相关、所述事实能否从给定证据中完全归因,以及逻辑推断是否严格遵循前序步骤。在构建过程中,团队面临多重困难:首先,注释协议设计需平衡认知负荷与标注质量,为此将任务拆分为逻辑验证与归因验证两个独立流程,但步骤类型(归因、逻辑或混合)的界定仍存在模糊性。其次,证据检索依赖维基百科,部分事实性主张因检索不完善或需领域知识推理而被标记为‘无支持’,影响了归因评估的完整性。此外,数据集中包含大量边界案例,涉及近似表述、专业知识和时间不一致性等问题,导致注释者间一致性较低,这些案例被单独归类为REVEAL-Open子集,凸显了复杂推理验证中固有的主观性与不确定性。
常用场景
经典使用场景
在自然语言处理领域,随着大语言模型在复杂推理任务中广泛采用思维链技术,对推理步骤的自动验证成为评估模型可靠性的关键环节。REVEAL数据集为此提供了精细化的评估基准,其经典使用场景在于系统性地评测各类验证器对开放域问答中思维链的步骤级正确性判断能力。该数据集通过标注每个推理步骤的相关性、事实归因性和逻辑正确性,为研究者构建了一个多维度、可复现的验证平台,尤其适用于检验验证器在识别归因错误与逻辑谬误方面的性能。
解决学术问题
REVEAL数据集主要解决了复杂推理验证中缺乏细粒度、步骤级标注数据的核心学术问题。以往研究多局限于最终答案的正确性评估,难以追溯推理链条中的具体错误来源。该数据集通过提供大规模人工标注的步骤级标签,使研究者能够定量分析归因步骤的事实支持度与逻辑步骤的推理连贯性,从而推动自动验证方法在事实性、逻辑性等维度的性能提升。其意义在于建立了可扩展的评估框架,为改进语言模型的推理可解释性与可靠性奠定了实证基础。
衍生相关工作
REVEAL数据集的发布催生了一系列围绕推理验证的衍生研究。例如,基于其标注范式,后续工作扩展了更多领域的步骤级验证基准,如数学推理与科学问答。同时,该数据集启发了对混合型错误(如归因与逻辑交织的缺陷)的检测方法创新,以及针对低置信度案例的对抗性验证模型开发。此外,其提供的自由文本解释标注为可解释性人工智能的研究提供了丰富语料,促进了基于自然语言解释的验证模型训练与评估框架的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作