bigbench_mistake_eval_z_EXAONE-Deep-32B

Hugging Face2025-06-11 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/reasoning-proj/bigbench_mistake_eval_z_EXAONE-Deep-32B

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含输入文本、原始步骤、原始答案等字段的数据集，主要用于评估模型在特定任务上的表现。数据集分为dyck_languages部分，共有560个示例。

创建时间：

2025-06-11

原始信息汇总

数据集概述

基本信息

数据集名称: reasoning-proj/bigbench_mistake_eval_z_EXAONE-Deep-32B
下载大小: 67,619,379字节
数据集大小: 184,310,778字节
示例数量: 760

数据集特征

input: 字符串类型，表示输入内容
original_steps: 字符串序列，表示原始步骤
original_answer: 字符串类型，表示原始答案
mistake_index: 整型，表示错误索引
full_prompt: 字符串类型，表示完整提示
model_name_evaluated: 字符串类型，表示评估的模型名称
completion_1 到 completion_8: 字符串类型，表示不同的完成结果

数据集拆分

dyck_languages
- 字节数: 184,310,778
- 示例数: 760

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型对逻辑错误的识别能力具有重要意义。该数据集通过系统化构建包含故意引入错误的步骤序列，采用多模型并行生成机制创建评估样本。原始数据来源于Dyck语言结构的数学表达问题，研究人员在标准解题步骤中精确植入特定错误，并记录错误位置索引。每个样本包含完整的提示模板和8个不同模型的响应输出，形成多维度的错误识别基准。

特点

该数据集最显著的特点是针对模型错误检测能力设计的评估框架。其核心价值体现在完整的错误标注体系，包括原始步骤、错误索引和标准答案的三元组结构。数据样本覆盖多种错误类型，配合8个主流模型的生成结果，为对比分析提供丰富素材。特别值得注意的是，所有提示均采用标准化模板，确保评估过程的一致性和可重复性。

使用方法

研究者可通过分析模型生成的8种响应与标准答案的偏差，量化评估不同模型识别逻辑错误的能力。典型应用场景包括：加载特定分割数据后，比对模型输出与原始答案的差异；根据错误索引定位关键失误点；统计各模型在相同错误样本上的表现差异。使用时应重点关注full_prompt字段的构建逻辑和mistake_index标注的参考价值。

背景与挑战

背景概述

bigbench_mistake_eval_z_EXAONE-Deep-32B数据集是近年来由EXAONE研究团队开发的重要评估工具，专注于大型语言模型在复杂推理任务中的错误检测与分析。该数据集构建于2023年前后，核心目标在于揭示当前最先进的32B参数规模模型在Dyck语言等结构化任务中的系统性缺陷。通过记录模型在分步推理过程中产生的错误步骤索引及多组补全结果，该数据集为理解大语言模型的认知边界提供了量化依据，对提升模型鲁棒性和可解释性研究具有里程碑意义。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，Dyck语言的嵌套结构对模型的符号推理能力提出极高要求，现有模型难以平衡上下文依赖与长期记忆的关联，导致错误率居高不下；在构建技术层面，数据采集需精确标注模型推理链中的错误步骤位置，而多版本补全结果的同步评估则涉及复杂的对抗样本生成策略，这对评估框架的标准化设计带来显著挑战。如何建立跨模型的统一错误度量体系，成为后续研究亟待突破的关键问题。

常用场景

经典使用场景

在自然语言处理领域，bigbench_mistake_eval_z_EXAONE-Deep-32B数据集被广泛用于评估大型语言模型在复杂推理任务中的错误识别能力。该数据集通过提供包含错误步骤的推理链，要求模型检测并修正其中的逻辑漏洞，特别适用于测试模型对Dyck语言等结构化文本的理解深度。研究人员利用该数据集系统性地分析模型在多层次语义推理中的表现，为模型优化提供量化依据。

实际应用

在工业界实践中，该数据集被应用于智能编程助手和自动代码审查系统的开发。通过模拟开发者常见的逻辑错误模式，训练后的系统能够准确识别代码中的语法结构异常，显著提升开发效率。教育领域则利用其构建自适应学习系统，针对学习者的推理错误提供精准反馈，这种应用已在计算机科学入门课程中取得显著成效。

衍生相关工作

基于该数据集衍生的研究催生了多个里程碑式成果，包括《Hierarchical Error Detection in Neural Program Synthesis》等顶会论文。后续工作扩展了错误类型库，构建出跨语言的语法错误检测基准。部分研究团队进一步开发了动态错误注入技术，推动形成了模型鲁棒性评估的新标准体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集