bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含输入文本、原始步骤、原始答案、错误索引、完整提示、评估的模型名称和8个不同的完成选项。数据集被拆分为dyck_languages部分，包含720个示例，大小为约113MB。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: reasoning-proj/bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B
下载大小: 29,138,498 字节
数据集大小: 237,818,032 字节

数据集特征

input: 字符串类型，表示输入内容
original_steps: 字符串序列，表示原始步骤
original_answer: 字符串类型，表示原始答案
mistake_index: 整型，表示错误索引
full_prompt: 字符串类型，表示完整提示
model_name_evaluated: 字符串类型，表示评估的模型名称
completion_1 到 completion_8: 字符串类型，表示8种不同的完成结果

数据集分片

dyck_languages
- 字节数: 161,691,831
- 示例数: 986
logical_deduction
- 字节数: 62,958,499
- 示例数: 300
multistep_arithmetic
- 字节数: 13,167,702
- 示例数: 280

配置文件

默认配置
- dyck_languages: data/dyck_languages-*
- logical_deduction: data/logical_deduction-*
- multistep_arithmetic: data/multistep_arithmetic-*

搜集汇总

数据集介绍

构建方式

在人工智能推理评估领域，bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B数据集通过系统化方法构建，涵盖五个核心推理任务：Dyck语言处理、逻辑演绎、多步算术、单词排序及乱序对象追踪。每个任务均包含原始问题输入、标准解题步骤、正确答案及人工标注的错误步骤索引，并整合了多个模型生成的补全结果，形成层次化的评估样本。

特点

该数据集显著特点在于其多维度的错误评估框架，不仅提供原始问题与标准答案的对照，更精确标识错误发生位置，并汇集八个不同模型的输出响应。其数据结构包含完整的提示模板与模型元信息，支持对推理链断裂点的细粒度分析，为研究语言模型逻辑一致性提供丰富对比维度。

使用方法

研究者可借助该数据集执行自动化错误检测与模型行为分析，通过对比原始步骤与模型补全结果的偏差，量化不同模型在复杂推理任务中的脆弱性。数据集中分任务存储的结构支持定向性能评估，其完整提示模板可直接用于复现实验，为改进模型推理能力提供基准测试环境。

背景与挑战

背景概述

在人工智能领域，大规模语言模型的推理能力评估一直是核心研究课题。bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B数据集由DeepSeek团队构建，专注于系统化分析模型在复杂推理任务中的错误模式。该数据集通过整合形式语言处理、逻辑推理、多步算术等五大核心任务，为模型诊断提供了多维度的评估框架，显著推进了可解释人工智能的发展进程。

当前挑战

该数据集旨在解决语言模型在结构化推理任务中的错误定位难题，其构建面临多重挑战：首先需设计能够精确诱导模型产生典型错误的对抗性样本，其次要建立跨任务统一的错误标注标准。在数据处理层面，需平衡不同任务间的难度分布，并确保错误标注的一致性与可复现性，这对标注者的专业知识和质量控制提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-1.5B数据集被广泛应用于评估大型语言模型在复杂推理任务中的错误检测能力。该数据集通过包含多步骤算术、逻辑推理、Dyck语言解析等多样化任务，为研究者提供了一个系统化测试模型逐步推理准确性的基准平台，特别适用于分析模型在长链推理过程中的错误传播模式。

衍生相关工作

该数据集催生了多项关于大语言模型错误分析的经典研究。基于其构建的自动化评估框架被广泛应用于模型对比研究，衍生出包括推理链验证、错误模式分类和自适应修正等创新方法。这些工作不仅深化了对语言模型认知局限的理解，更为构建具有自我纠错能力的新一代AI系统奠定了理论基础。

数据集最近研究