crv

Name: crv
Creator: AI at Meta
Published: 2025-11-28 17:30:52
License: 暂无描述

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/facebook/crv

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了推理和数学问题，以及Llama 3.1 8B Instruct生成的Chain-of-Thought (CoT)追踪和步骤级别的正确性标注，用于训练和评估CRV验证器。数据集涵盖合成算术、合成布尔和GSM8K三个领域。

提供机构：

AI at Meta

创建时间：

2025-11-25

原始信息汇总

CRV数据集概述

基本信息

许可证: CC-BY-NC-4.0
语言: 英语
标签: 推理、数学、逻辑
规模: 10万到100万样本

数据集来源

该数据集用于论文《通过计算图验证思维链推理》(CRV)，包含推理和数学问题、Llama 3.1 8B Instruct生成的思维链轨迹，以及用于训练和评估CRV验证器的步骤级正确性标注。

领域划分

合成算术: 涉及加法、乘法和一元减运算符的嵌套整数表达式
合成布尔: 涉及布尔运算符的真值嵌套逻辑表达式
GSM8K: GSM8K基准测试的测试分割，包含生成的思维链轨迹

数据类型

原始思维链生成

包含原始表达式/问题和Llama 3.1 8B Instruct生成的思维链响应
思维链已预先分割为单个推理步骤

标注数据

包含相同的思维链，但带有步骤级正确性标签
标签使用论文中描述的共识流程生成

文件结构

文件位于相应文件夹中，命名格式为：[domain].nd[count].nt[operators].[type].json

nd: 文件中的表达式/样本数量
nt: 表达式复杂度，由运算符数量定义
.annotated: 包含步骤级标签的文件

数据字段

原始思维链生成

role: 消息发送者角色
content: 模型生成的完整思维链文本
predicted_truth_value/predicted_value: 从生成的思维链得出的最终答案
step_level: 表示分割步骤的对象列表

标注数据

expression_id: 问题/表达式的唯一标识符
original_expression: 输入问题文本
correct_value: 真实答案
predicted_value: 模型预测的答案
total_steps: 解决方案中的推理步骤总数
step_expressions: 每个步骤的详细标注列表

引用信息

bibtex @article{zhao2025verifying, title={Verifying Chain-of-Thought Reasoning via Its Computational Graph}, author={Zheng Zhao and Yeskendir Koishekenov and Xianjun Yang and Naila Murray and Nicola Cancedda}, year={2025}, eprint={2510.09312}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.09312}, }

搜集汇总

数据集介绍

构建方式

在推理任务数据构建领域，CRV数据集通过系统化流程生成多领域验证数据。该数据集基于合成算术表达式、布尔逻辑表达式和GSM8K数学问题三大领域，采用Llama 3.1 8B模型自动生成思维链轨迹。为确保标注质量，研究团队设计了双重验证机制：结合大语言模型评判与程序化验证方法，仅保留两者一致性标注的推理步骤，通过严格的数据筛选策略构建出高可靠性的步级正确性标注数据集。

使用方法

针对推理验证研究需求，该数据集支持两种典型使用模式。研究人员可直接调用标注数据文件进行监督学习，利用步级正确性标签训练推理验证模型；亦可基于原始思维链生成数据开展探索性分析，通过解析分步推理内容研究大语言模型的推理模式。数据集提供的格式化提示词字段能精确重构模型推理状态，特别适用于归因分析和可解释性研究。各领域数据按复杂度分级存储，用户可根据具体实验需求选择相应操作符数量的数据子集。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的广泛应用，验证其思维链推理过程的可靠性成为关键科学问题。CRV数据集由Meta研究团队于2025年创建，旨在通过计算图方法系统评估链式推理步骤的正确性。该数据集涵盖算术逻辑与数学推理两大核心领域，通过结构化标注推动可解释人工智能的发展，为推理验证机制提供了重要基准。

当前挑战

在推理验证领域，模型常因隐式错误传递导致整体结论失效，CRV需解决多步骤推理中局部错误检测的难题。数据构建过程中面临双重挑战：既要保证自动标注的粒度精度，又需协调程序验证与LLM评判的共识机制，这要求设计严格的交叉验证流程以确保标签可靠性。

常用场景

经典使用场景

在推理任务研究领域，CRV数据集被广泛应用于验证链式思维（CoT）推理过程的可靠性。该数据集通过合成算术、布尔逻辑及GSM8K数学问题，提供了由Llama 3.1模型生成的CoT轨迹及其步骤级正确性标注，成为评估推理模型内部逻辑一致性的基准工具。研究者常利用其结构化数据，分析多步推理中错误传播的规律，或开发新型验证算法以提升复杂问题解决的透明度。

解决学术问题

CRV数据集显著推进了自动推理验证领域的研究，解决了传统方法对黑箱模型推理过程缺乏可解释性的难题。通过提供精确的步骤级正确性标签，该数据集支持对推理链中局部错误定位与归因的分析，为构建可验证的AI系统奠定基础。其双重验证机制确保了标注可靠性，推动了符号推理与神经模型融合的理论探索，对可信人工智能的发展具有深远意义。

实际应用

在实际应用层面，CRV数据集为教育技术、智能辅导系统及自动化逻辑验证工具提供了核心支持。例如，在数学教育场景中，系统可借助该数据集的标注机制实时诊断学生解题步骤的合理性；于工业领域，其布尔逻辑验证模块能辅助电路设计或协议规范的形式化检查。这些应用通过量化推理路径的可信度，显著提升了智能系统在关键决策中的安全性。

数据集最近研究