MCBench

Name: MCBench
Creator: 韩国大学计算机科学与工程系
Published: 2025-10-09 15:43:15
License: 暂无描述

arXiv2025-10-09 更新2025-10-11 收录

下载链接：

https://github.com/hyeonseokk/MCBench

下载链接

链接失效反馈

官方服务：

资源简介：

MCBench是一个为评估大型语言模型（LLM）能否通过严格遵循逐步指令来执行字符串匹配自然语言处理（NLP）度量的基准测试。该数据集包括详细的、分步的规则，由需求、示例和代码三部分组成。LLM需要根据这些规则计算给定陈述的最终度量分数。MCBench旨在评估LLM的三个关键能力：复杂指令遵循、数学推理和长期一致性。数据集还包含多种类型的陈述，包括低资源语言、特殊字符和需要特别注意的陈述，以分析LLM在处理不同输入类型时的能力。MCBench通过引入三个不同的评估指标，包括最终准确性（FA）、格式遵循（FF）和遵循深度（FD），实现了更精确的评估。

MCBench is a benchmark designed to evaluate whether Large Language Models (LLMs) can execute string-matching natural language processing (NLP) metrics by strictly following step-by-step instructions. This dataset includes detailed, step-by-step rules composed of three parts: requirements, examples, and code. LLMs are required to calculate the final metric score of a given statement based on these rules. MCBench aims to evaluate three core capabilities of LLMs: complex instruction following, mathematical reasoning, and long-term consistency. The dataset also contains various types of statements, including low-resource languages, special characters, and statements requiring special attention, to analyze the capabilities of LLMs when processing different input types. MCBench enables more precise evaluation by introducing three distinct evaluation metrics: Final Accuracy (FA), Format Following (FF), and Following Depth (FD).

提供机构：

韩国大学计算机科学与工程系

创建时间：

2025-10-09

原始信息汇总

MCBench数据集概述

数据集基本信息

数据集名称：Metric Calculating Benchmark (MCBench)
官方论文：Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models
会议接收：EMNLP 2025主会议

数据集特点

基准类型：代码可验证的复杂指令遵循基准
目标模型：大型语言模型
验证方式：基于代码验证

实验配置

硬件要求

GPU配置：8个RTX A6000 GPU

软件依赖

核心框架：vLLM框架
主要依赖包：
- torch==2.6.0+cu124
- vllm==0.8.5
- transformers==4.53.1
- openai==1.97.0

支持模型列表

meta-llama/Meta-Llama-3.1-8B-Instruct
Qwen/Qwen2.5-7B-Instruct
Qwen/Qwen2.5-32B-Instruct
meta-llama/Llama-3.1-70B-Instruct
meta-llama/Llama-3.3-70B-Instruct
Qwen/QwQ-32B
mistralai/Mistral-Small-24B-Instruct-2501
deepseek-ai/DeepSeek-R1-Distill-Llama-70B
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
Qwen/Qwen2.5-Coder-7B-Instruct
Qwen/Qwen2.5-Math-7B-Instruct

推理配置参数

模型名称：通过model_name参数指定
输出目录：自定义输出路径
提示类型：支持[r, re, rec]三种选项
名称类型：支持[original, NLP]两种选项

搜集汇总

数据集介绍

构建方式

在自然语言处理领域对模型评估标准日益提升的背景下，MCBench数据集通过系统化流程构建而成。研究团队首先从ACL社区和WMT会议中筛选出33种经典字符串匹配指标，并采用LLM辅助生成与人工审核相结合的方式创建评估模板。每个模板包含需求说明、计算示例和可执行代码三个核心组件，所有生成内容均经过领域专家对技术准确性和逻辑自洽性的双重验证，确保评估标准的严谨性与可复现性。

使用方法

使用该数据集时，研究者需按照预设的评估流程进行操作。首先将包含多步计算指令的评估模板输入待测模型，要求模型严格遵循模板中的步骤说明生成中间结果和最终得分。随后通过运行数据集提供的平行参考代码，将模型输出与标准计算结果进行逐项比对。评估过程重点关注模型在长序列指令保持、数学推理准确性和跨步骤信息一致性三个维度的表现，最终通过综合计算三个核心指标的加权得分，实现对模型复杂指令遵循能力的客观量化评估。

背景与挑战

背景概述

MCBench数据集由韩国大学计算机科学与工程系的研究团队于2025年提出，旨在解决当前大型语言模型在复杂指令遵循能力评估中的局限性。该数据集聚焦于自然语言处理领域中的字符串匹配指标计算，通过构建包含逐步说明的评估框架，系统检验模型在指令理解、数学推理和长程一致性方面的综合能力。其创新性在于引入可代码验证的平行参考实现，为前沿模型性能提供了客观量化的评估标准，显著推动了指令遵循评估方法学的发展。

当前挑战

该数据集核心挑战在于解决现有基准测试趋近饱和背景下模型复杂指令遵循能力的精准评估难题。构建过程中面临三重挑战：需设计涵盖33种字符串匹配指标的标准化计算流程，确保步骤描述的自洽性与可复现性；需平衡多模态输入（如低资源语言、表情符号）与对抗性文本对模型执行稳定性的影响；须通过人工校验与算法生成相结合的方式，保证评估指标在格式遵循、计算深度等维度的度量有效性。

常用场景

经典使用场景

在自然语言处理领域，MCBench数据集主要应用于评估大型语言模型执行复杂指令遵循的能力。该数据集通过设计包含多步骤计算流程的字符串匹配指标，要求模型严格遵循详细的操作指南完成自然语言处理指标的自动计算。这种评估方式能够系统检验模型在理解长篇技术文档、执行精确数值运算以及维护中间结果一致性等方面的综合表现。

解决学术问题

MCBench有效解决了当前大语言模型评测中存在的基准饱和与主观评估偏差等关键学术问题。通过提供可代码验证的客观评测框架，该数据集填补了传统评测方法在复杂指令遵循能力量化评估方面的空白。其创新性地引入平行参考代码比对机制，使得模型输出准确性的判定完全基于确定性规则，避免了人工评估或LLM-as-a-judge方法可能引入的主观性偏差，为大语言模型能力边界的精确测量提供了可靠工具。

实际应用

在实际应用层面，MCBench为AI系统开发提供了重要的能力验证标准。该数据集能够有效评估智能助手在处理复杂工作流程时的可靠性，例如在自动化报告生成、数据分析和多步骤任务执行等场景中的表现。通过测试模型对包含特殊字符、低资源语言和对抗性文本等多样化输入的响应能力，该数据集为构建稳健的工业级AI应用提供了关键的质量保证机制。

数据集最近研究