five

crv

收藏
Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/facebook/crv
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了推理和数学问题,以及Llama 3.1 8B Instruct生成的Chain-of-Thought (CoT)追踪和步骤级别的正确性标注,用于训练和评估CRV验证器。数据集涵盖合成算术、合成布尔和GSM8K三个领域。
提供机构:
AI at Meta
创建时间:
2025-11-25
原始信息汇总

CRV数据集概述

基本信息

  • 许可证: CC-BY-NC-4.0
  • 语言: 英语
  • 标签: 推理、数学、逻辑
  • 规模: 10万到100万样本

数据集来源

该数据集用于论文《通过计算图验证思维链推理》(CRV),包含推理和数学问题、Llama 3.1 8B Instruct生成的思维链轨迹,以及用于训练和评估CRV验证器的步骤级正确性标注。

领域划分

  1. 合成算术: 涉及加法、乘法和一元减运算符的嵌套整数表达式
  2. 合成布尔: 涉及布尔运算符的真值嵌套逻辑表达式
  3. GSM8K: GSM8K基准测试的测试分割,包含生成的思维链轨迹

数据类型

原始思维链生成

  • 包含原始表达式/问题和Llama 3.1 8B Instruct生成的思维链响应
  • 思维链已预先分割为单个推理步骤

标注数据

  • 包含相同的思维链,但带有步骤级正确性标签
  • 标签使用论文中描述的共识流程生成

文件结构

文件位于相应文件夹中,命名格式为:[domain].nd[count].nt[operators].[type].json

  • nd: 文件中的表达式/样本数量
  • nt: 表达式复杂度,由运算符数量定义
  • .annotated: 包含步骤级标签的文件

数据字段

原始思维链生成

  • role: 消息发送者角色
  • content: 模型生成的完整思维链文本
  • predicted_truth_value/predicted_value: 从生成的思维链得出的最终答案
  • step_level: 表示分割步骤的对象列表

标注数据

  • expression_id: 问题/表达式的唯一标识符
  • original_expression: 输入问题文本
  • correct_value: 真实答案
  • predicted_value: 模型预测的答案
  • total_steps: 解决方案中的推理步骤总数
  • step_expressions: 每个步骤的详细标注列表

引用信息

bibtex @article{zhao2025verifying, title={Verifying Chain-of-Thought Reasoning via Its Computational Graph}, author={Zheng Zhao and Yeskendir Koishekenov and Xianjun Yang and Naila Murray and Nicola Cancedda}, year={2025}, eprint={2510.09312}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.09312}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在推理任务数据构建领域,CRV数据集通过系统化流程生成多领域验证数据。该数据集基于合成算术表达式、布尔逻辑表达式和GSM8K数学问题三大领域,采用Llama 3.1 8B模型自动生成思维链轨迹。为确保标注质量,研究团队设计了双重验证机制:结合大语言模型评判与程序化验证方法,仅保留两者一致性标注的推理步骤,通过严格的数据筛选策略构建出高可靠性的步级正确性标注数据集。
使用方法
针对推理验证研究需求,该数据集支持两种典型使用模式。研究人员可直接调用标注数据文件进行监督学习,利用步级正确性标签训练推理验证模型;亦可基于原始思维链生成数据开展探索性分析,通过解析分步推理内容研究大语言模型的推理模式。数据集提供的格式化提示词字段能精确重构模型推理状态,特别适用于归因分析和可解释性研究。各领域数据按复杂度分级存储,用户可根据具体实验需求选择相应操作符数量的数据子集。
背景与挑战
背景概述
随着大型语言模型在复杂推理任务中的广泛应用,验证其思维链推理过程的可靠性成为关键科学问题。CRV数据集由Meta研究团队于2025年创建,旨在通过计算图方法系统评估链式推理步骤的正确性。该数据集涵盖算术逻辑与数学推理两大核心领域,通过结构化标注推动可解释人工智能的发展,为推理验证机制提供了重要基准。
当前挑战
在推理验证领域,模型常因隐式错误传递导致整体结论失效,CRV需解决多步骤推理中局部错误检测的难题。数据构建过程中面临双重挑战:既要保证自动标注的粒度精度,又需协调程序验证与LLM评判的共识机制,这要求设计严格的交叉验证流程以确保标签可靠性。
常用场景
经典使用场景
在推理任务研究领域,CRV数据集被广泛应用于验证链式思维(CoT)推理过程的可靠性。该数据集通过合成算术、布尔逻辑及GSM8K数学问题,提供了由Llama 3.1模型生成的CoT轨迹及其步骤级正确性标注,成为评估推理模型内部逻辑一致性的基准工具。研究者常利用其结构化数据,分析多步推理中错误传播的规律,或开发新型验证算法以提升复杂问题解决的透明度。
解决学术问题
CRV数据集显著推进了自动推理验证领域的研究,解决了传统方法对黑箱模型推理过程缺乏可解释性的难题。通过提供精确的步骤级正确性标签,该数据集支持对推理链中局部错误定位与归因的分析,为构建可验证的AI系统奠定基础。其双重验证机制确保了标注可靠性,推动了符号推理与神经模型融合的理论探索,对可信人工智能的发展具有深远意义。
实际应用
在实际应用层面,CRV数据集为教育技术、智能辅导系统及自动化逻辑验证工具提供了核心支持。例如,在数学教育场景中,系统可借助该数据集的标注机制实时诊断学生解题步骤的合理性;于工业领域,其布尔逻辑验证模块能辅助电路设计或协议规范的形式化检查。这些应用通过量化推理路径的可信度,显著提升了智能系统在关键决策中的安全性。
数据集最近研究
最新研究方向
在推理与数学逻辑领域,CRV数据集正推动思维链验证机制的前沿探索。该数据集通过融合合成算术、布尔逻辑与GSM8K数学问题,构建了基于计算图的验证框架,其标注数据采用大语言模型与程序化验证的双重共识策略,为推理步骤的精确性评估提供了新范式。这一研究方向紧密关联大模型可解释性研究热点,通过解构思维链的中间状态,显著提升了复杂推理任务的透明度与可靠性,对推动可信人工智能发展具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作