bigbench_mistake_eval_z_Qwen3-30B-A3B-Thinking-2507

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_Qwen3-30B-A3B-Thinking-2507

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于评估模型性能的多个字段，如输入文本、原始步骤、原始答案、错误位置、完整提示、评估的模型名称以及多个可能的完成选项。数据集分为五个子集：dyck_languages、logical_deduction、multistep_arithmetic、word_sorting和tracking_shuffled_objects，每个子集都有不同数量的示例和大小。

创建时间：

2025-11-28

原始信息汇总

数据集概述

基本信息

数据集名称: bigbench_mistake_eval_z_Qwen3-30B-A3B-Thinking-2507
存储位置: https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_Qwen3-30B-A3B-Thinking-2507
总下载大小: 111,134,293字节
数据集总大小: 294,090,796字节

数据结构

特征字段

input (字符串类型)
original_steps (字符串列表)
original_answer (字符串类型)
mistake_index (int64类型)
full_prompt (字符串类型)
model_name_evaluated (字符串类型)
completion_1 到 completion_8 (均为字符串类型)

数据划分

dyck_languages
- 样本数量：986
- 数据大小：170,853,860字节
logical_deduction
- 样本数量：300
- 数据大小：43,988,802字节
multistep_arithmetic
- 样本数量：300
- 数据大小：26,481,849字节
word_sorting
- 样本数量：300
- 数据大小：37,820,169字节
tracking_shuffled_objects
- 样本数量：200
- 数据大小：14,946,116字节

配置信息

默认配置名称: default
数据文件路径模式:
- dyck_languages: data/dyck_languages-*
- logical_deduction: data/logical_deduction-*
- multistep_arithmetic: data/multistep_arithmetic-*
- word_sorting: data/word_sorting-*
- tracking_shuffled_objects: data/tracking_shuffled_objects-*

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，该数据集通过系统化方法构建，涵盖五个核心任务：Dyck语言分析、逻辑推理、多步算术运算、单词排序及对象追踪。每个任务均基于预定义的问题模板生成输入序列，并标注原始解题步骤与标准答案。关键创新在于引入错误索引机制，人工标注解题链中特定步骤的错误位置，从而构建具有可控错误模式的评估样本。数据生成过程采用标准化流程，确保不同任务间结构一致性，为模型错误分析提供结构化基础。

特点

该数据集最显著的特征在于其多维评估框架，不仅包含常规的问题-答案对，还完整记录模型的八次独立推理轨迹。这种设计允许研究者横向比较同一模型在不同随机种子下的表现稳定性。数据覆盖形式语言处理、符号推理与数值计算等多样领域，其中Dyck语言任务检验语法约束遵循能力，逻辑演绎任务评估演绎推理鲁棒性。每个样本均配备完整提示模板与错误定位信息，为可解释性研究提供丰富素材。

使用方法

研究者可通过加载标准数据分割直接获取评估样本，利用内置的错误索引字段定位模型推理缺陷。典型应用场景包括：通过对比八组生成结果分析模型输出波动性，借助原始步骤与生成答案的差异识别系统性错误模式。该数据集支持端到端评估流程，用户可基于完整提示字段复现实验条件，或结合错误索引开发针对性修正算法。对于验证模型思维链可靠性及提升推理一致性具有重要实践价值。

背景与挑战

背景概述

在人工智能推理能力评估领域，bigbench_mistake_eval_z_Qwen3-30B-A3B-Thinking-2507数据集由前沿研究团队于2024年构建，专注于探索大语言模型在复杂任务中的错误识别机制。该数据集通过整合形式语言解析、逻辑推理、多步运算等五大核心任务模块，旨在系统评估模型对自身推理过程的元认知能力。其创新性在于将传统基准测试从结果导向转变为过程分析，为理解模型认知偏差提供了结构化实验环境，显著推动了可解释人工智能研究的发展。

当前挑战

该数据集核心挑战集中于两大维度：在领域问题层面，需解决模型对自身推理步骤中潜在错误的检测盲区，特别是在符号推理与多步任务中错误传播的定位难题；在构建过程中，面临人工标注高复杂度思维链的可靠性验证困境，以及平衡不同任务领域样本分布的异构性挑战。此外，如何设计标准化评估框架以量化模型对错误的敏感度，成为影响数据集实用性的关键瓶颈。

常用场景

经典使用场景

在自然语言处理领域，该数据集通过引入思维链推理过程中的错误检测机制，为评估大型语言模型的逻辑一致性提供了基准。其核心应用聚焦于Dyck语言解析、多步算术运算和逻辑演绎等复杂任务，要求模型在生成推理步骤时识别并修正潜在错误，从而深化对模型内部认知机制的理解。

解决学术问题

该数据集有效解决了人工智能领域关于模型鲁棒性与可解释性的关键问题。通过构建包含人为错误的思维链样本，研究者能够系统分析模型对逻辑谬误的敏感度，为改进推理架构、降低幻觉现象提供了量化依据，推动了可信人工智能的理论发展。

衍生相关工作

基于该数据集衍生的研究催生了系列创新工作，包括结合对抗训练的思维链验证框架、面向数学推理的动态纠错机制等。这些成果进一步拓展至代码生成错误检测领域，形成了跨任务的系统性评估范式，持续推动着认知计算前沿的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集