CENTERBENCH

Name: CENTERBENCH
Creator: Brock University, St. Catharines, Canada & Emory University, Atlanta, USA
Published: 2025-10-23 21:30:40
License: 暂无描述

arXiv2025-10-23 更新2025-10-25 收录

下载链接：

https://anthropic.com/workbench

下载链接

链接失效反馈

官方服务：

资源简介：

CENTERBENCH是一个包含9,720个理解问题的数据集，旨在测试语言模型是否真正理解句法结构或依赖于语义捷径。数据集包含360个中心嵌入句子，其中包含控制复杂性缩放和可能性/不可能性配对。每个句子都有六个理解问题，涉及表面理解、句法依赖和因果推理。数据集旨在帮助研究人员评估模型是否在处理复杂句子时放弃结构分析而转向语义捷径，从而提高模型的评估能力。

CENTERBENCH is a dataset consisting of 9,720 comprehension questions, designed to test whether language models truly understand syntactic structures or rely on semantic shortcuts. It contains 360 center-embedded sentences, with controlled complexity scaling and plausible/implausible pairs. Each sentence is paired with six comprehension questions covering surface-level comprehension, syntactic dependency, and causal reasoning. This dataset aims to help researchers evaluate whether models abandon structural analysis in favor of semantic shortcuts when processing complex sentences, thereby enhancing the rigor of model evaluation.

提供机构：

Brock University, St. Catharines, Canada & Emory University, Atlanta, USA

创建时间：

2025-10-23

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，中心嵌套结构作为句法复杂性的经典测试基准，CENTERBENCH通过系统化构建流程实现了对语言模型结构解析能力的精准评估。该数据集采用分层设计方法，从复杂度1级到6级逐级增加嵌套从句数量，每个层级包含语义合理与不合理两种平行句对。通过精心筛选动物、职业、交通工具三大类别的实体名词，结合GPT-4生成合理句子与Claude模型进行环形动词替换生成不合理句子，确保句法结构完全一致而语义合理性形成鲜明对比。所有句子均经过人工验证，严格保证时态一致性、语义合理性与句法准确性，最终形成包含360个句子、9,720个理解问题的标准化数据集。

使用方法

在使用该数据集进行评估时，研究者需遵循标准化的测试流程。首先将测试句子与对应问题输入目标模型，通过多层级匹配策略评估模型响应：从精确字符串匹配到语言学归一化处理，再到语义相似度计算，确保评估结果的准确性。对于具有推理能力的模型，可同时启用思维链分析功能，通过解析中间推理过程揭示模型失败的具体机制。该数据集支持对不同复杂度层级、问题类型和语义条件的独立分析，使研究者能够精确识别模型在哪些条件下放弃结构分析转而依赖语义关联，为模型能力诊断提供系统化工具。

背景与挑战

背景概述

CENTERBENCH数据集由Sangmitra Madhusudan、Kaige Chen和Ali Emami等研究人员于2025年创建，旨在探究语言模型在中心嵌套句结构中的理解机制。该数据集包含9,720个理解性问题，覆盖1至6级复杂度层级，通过对比语义合理与不合理句子的表现，揭示模型是否真正进行句法分析或依赖语义关联。其设计基于数十年心理语言学研究的中心嵌套句理论，为评估语言模型的深层结构处理能力提供了标准化框架，对自然语言处理领域的模型评估方法论产生重要影响。

当前挑战

该数据集核心挑战在于区分语言模型的句法分析与语义模式匹配能力，尤其在处理递归嵌套结构时需量化模型从结构分析转向语义捷径的临界点。构建过程中面临多重挑战：需确保语义不合理句子在保持语法正确性的同时彻底违反常识预期；设计涵盖表面理解、句法依赖和因果推理的六类问题时需维持结构一致性；通过动词循环置换算法生成不合理句子时需避免时间逻辑冲突；此外，验证9,720个问题答案对的准确性需建立多层级自动评估流程并辅以人工校验，确保评分系统能处理动词形态变化和语义相似性匹配。

常用场景

经典使用场景

在自然语言处理领域，CENTERBENCH数据集被广泛应用于评估语言模型对复杂句法结构的理解能力。该数据集通过中心嵌套句构造，系统性地测试模型在处理递归从句时的表现。研究者通常利用其精心设计的复杂度分级体系，从简单的主谓结构到深度嵌套的复杂句式，全面考察模型在不同难度下的句法分析能力。这种评估方式能够揭示模型在处理自然语言中常见但复杂的句法现象时的真实水平。

解决学术问题

CENTERBENCH数据集有效解决了语言模型评估中的关键学术问题，即如何区分模型是真正理解句法结构还是仅依赖语义关联进行模式匹配。通过设置语义合理与不合理句子的对比实验，该数据集量化了模型从结构分析转向语义捷径的具体转折点。这一创新设计为理解语言模型的内部工作机制提供了重要工具，填补了传统基准测试仅关注最终准确率而忽略推理过程的空白，推动了语言理解评估方法学的进步。

实际应用

在实际应用层面，CENTERBENCH为开发更可靠的自然语言处理系统提供了重要参考。在机器翻译、文本理解和对话系统等场景中，模型对复杂句法结构的准确解析直接影响系统性能。该数据集揭示的模型在处理嵌套结构时的局限性，指导开发者针对性地改进模型架构和训练策略。特别是在需要精确理解法律文本、学术论文等包含复杂句式场景的应用中，基于CENTERBENCH的评估结果有助于提升系统的实用性和可靠性。

数据集最近研究