bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-14B

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-14B

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含编程语言 Dyck 语言相关数据的数据集，它包含了输入文本、原始步骤、原始答案、错误位置、完整提示信息、评估模型名称以及多个可能的完成选项。数据集分为dyck_languages一个部分，共有720个示例。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: reasoning-proj/bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-14B
下载大小: 17,702,345 字节
数据集大小: 79,429,228 字节

数据集特征

input: 字符串类型，表示输入内容
original_steps: 字符串序列，表示原始步骤
original_answer: 字符串类型，表示原始答案
mistake_index: 整型，表示错误索引
full_prompt: 字符串类型，表示完整提示
model_name_evaluated: 字符串类型，表示评估的模型名称
completion_1 到 completion_8: 字符串类型，表示多个完成内容

数据集拆分

dyck_languages
- 样本数量: 986
- 数据大小: 63,960,990 字节
logical_deduction
- 样本数量: 200
- 数据大小: 15,468,238 字节

配置文件

默认配置:
- dyck_languages: 数据文件路径 data/dyck_languages-*
- logical_deduction: 数据文件路径 data/logical_deduction-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型推理能力的数据集构建需要严谨的方法论指导。该数据集通过系统化采集模型在Dyck语言和逻辑推理任务中的输出结果构建而成，原始数据包含问题输入、标准解题步骤、参考答案以及模型生成的8种不同完成版本。数据标注过程中特别标记了错误步骤的索引位置，为分析模型失误模式提供了结构化基础。

特点

作为专注于模型错误评估的基准数据集，其核心价值体现在多维度的对比分析能力。数据集囊括986个Dyck语言案例和240个逻辑推理样本，每个样本均包含原始问题描述和8个模型生成结果，形成丰富的错误模式分析矩阵。独特的错误步骤索引设计使得研究者能够精准定位模型推理链条中的薄弱环节，为改进模型提供数据支撑。

使用方法

该数据集主要服务于大语言模型的自我修正能力研究。使用者可通过对比标准答案与多个生成结果的差异，系统分析模型在形式语言处理和逻辑推理任务中的常见错误类型。研究人员应当重点关注mistake_index字段标注的错误步骤，结合full_prompt分析错误产生语境。建议采用分层抽样方法，分别对Dyck语言和逻辑推理两个子集进行独立分析，以揭示模型在不同领域的失误特征。

背景与挑战

背景概述

bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-14B数据集是近年来自然语言处理领域针对大语言模型错误评估的重要资源，由DeepSeek团队基于Qwen-14B模型构建。该数据集聚焦于模型在复杂逻辑推理任务中的错误模式分析，特别设计了Dyck语言和逻辑演绎两个核心评估维度。通过系统性地捕捉模型在分步推理过程中出现的错误节点，为理解大语言模型的认知边界提供了量化依据。其创新性的评估框架对推动可解释性人工智能发展具有显著意义，已成为评测模型鲁棒性的基准工具之一。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，如何准确定位大语言模型在多层次推理任务中的系统性错误，特别是区分知识缺失与逻辑链条断裂导致的错误类型具有显著难度；在构建技术层面，需要解决错误标注的一致性问题，包括错误索引的标准化定义、多专家标注分歧的仲裁机制，以及跨不同复杂度任务的错误模式可比性设计。此外，评估提示词工程对错误模式发现的影响也是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在自然语言处理领域，bigbench_mistake_eval_z_DeepSeek-R1-Distill-Qwen-14B数据集被广泛应用于评估大型语言模型在复杂推理任务中的错误识别能力。该数据集通过提供包含原始步骤、错误索引及多个模型输出的结构化数据，使研究者能够系统地分析模型在Dyck语言和逻辑推理任务中的表现差异。这种设计特别适合用于对比不同模型在相同任务上的错误模式，为模型优化提供明确方向。

衍生相关工作

该数据集催生了多项关于错误传播分析的重要研究。部分工作聚焦于开发新型的错误定位算法，通过分析mistake_index与模型输出的关联性来改进训练策略。另有研究利用completion_n的多重输出来构建集成模型，显著提升了在BIG-bench基准测试中的表现。这些衍生工作推动了模型自我诊断技术的发展。

数据集最近研究