bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了输入文本、原始步骤、原始答案等信息，旨在用于评估模型在特定任务上的表现。数据集分为三个部分：dyck_languages、logical_deduction和multistep_arithmetic，每个部分都包含了不同的示例。

创建时间：

2025-06-11

原始信息汇总

数据集概述

基本信息

数据集名称: reasoning-proj/bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1
下载大小: 44,227,014 字节
数据集大小: 303,260,046 字节

数据集特征

input: 字符串类型，表示输入内容。
original_steps: 字符串序列，表示原始步骤。
original_answer: 字符串类型，表示原始答案。
mistake_index: 整型，表示错误索引。
full_prompt: 字符串类型，表示完整提示。
model_name_evaluated: 字符串类型，表示评估的模型名称。
completion_1 到 completion_8: 字符串类型，表示多个完成结果。

数据集拆分

dyck_languages
- 字节数: 189,374,757
- 样本数: 986
logical_deduction
- 字节数: 92,642,175
- 样本数: 300
multistep_arithmetic
- 字节数: 19,997,675
- 样本数: 300
word_sorting
- 字节数: 1,245,439
- 样本数: 40

配置文件

默认配置
- dyck_languages: 数据文件路径为 data/dyck_languages-*
- logical_deduction: 数据文件路径为 data/logical_deduction-*
- multistep_arithmetic: 数据文件路径为 data/multistep_arithmetic-*
- word_sorting: 数据文件路径为 data/word_sorting-*

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1数据集通过系统化方法构建，涵盖Dyck语言、逻辑推理、多步算术、单词排序及对象跟踪五个子任务。每个子任务包含数百个实例，通过预设错误索引标记推理步骤中的特定错误点，并整合原始问题、步骤序列及模型生成的多个补全结果，形成结构化评估样本。

特点

该数据集具有多维度评估特性，其核心特征在于包含模型生成的八种不同补全结果，为错误分析提供丰富对比基础。数据集严格区分问题输入、原始解答步骤及人工标注的错误位置，支持对模型推理链的细粒度诊断。各子任务针对不同认知能力设计，从语言结构到数学运算，全面覆盖复杂推理场景。

使用方法

研究人员可加载特定子任务配置，通过解析输入提示词与多组补全结果的对比，分析模型在特定错误索引处的表现差异。典型应用包括评估模型抗干扰能力、错误传播分析及推理一致性检验。使用时应关注错误索引与补全结果的对应关系，结合原始步骤进行错误模式归因。

背景与挑战

背景概述

在人工智能领域，大规模语言模型的推理能力评估一直是核心研究课题。bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1数据集由前沿研究团队于2024年构建，专注于多步骤推理任务中的错误检测与归因分析。该数据集通过迪克语言、逻辑演绎、多步算术等五个子任务，系统性地评估模型在复杂推理链中定位错误节点的能力，为提升语言模型的逻辑一致性和可解释性提供了重要基准。

当前挑战

该数据集旨在解决语言模型多步骤推理中的错误传播问题，其核心挑战在于构建具有精确错误标注的推理链。技术难点包括：如何确保错误注入位置的逻辑合理性，保持原始任务语义一致性；如何处理不同领域（如形式语言与算术）的错误模式差异性；以及如何设计评估框架以区分模型的基础能力缺陷与临时性推理失误。这些挑战直接关系到模型可信推理能力的量化评估。

常用场景

经典使用场景

在自然语言处理领域，bigbench_mistake_eval_z_Llama-3.1-Nemotron-Nano-8B-v1数据集被广泛应用于评估大型语言模型在复杂推理任务中的错误检测能力。该数据集通过包含Dyck语言、逻辑推理、多步算术等多个子任务，模拟模型在逐步推理过程中可能出现的错误，为研究者提供了一个系统化的评估框架，用以检验模型在链式思维推理中的准确性和鲁棒性。

解决学术问题

该数据集有效解决了当前大语言模型在复杂推理任务中错误难以量化的问题。通过精确标注错误步骤索引和多轮补全结果，它使研究者能够深入分析模型在逻辑演绎、数学运算和符号处理等任务中的失败模式，为改进模型推理能力提供了关键数据支持，推动了可信人工智能系统的发展。

衍生相关工作

基于该数据集衍生的研究工作主要集中在推理错误分析和模型改进领域。众多学者利用其构建了细粒度的错误分类体系，开发了针对性的模型调试方法，并提出了多种增强推理可靠性的训练策略。这些工作显著推进了人工智能社区对复杂推理机制的理解，为构建更稳健的语言模型奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集