lm-diagnostics-cprag

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/SebastiaanBeekman/lm-diagnostics-cprag

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于心理语言学诊断的测试集（cprag），用于研究语言模型（如BERT）通过语言模型预训练所获得的语言学能力。它包含了一系列来自人类语言实验的诊断工具，可以帮助我们针对语言模型在上下文中生成预测时使用的信息提出有针对性的问题。以BERT模型为案例，该数据集发现模型能够区分涉及共享类别或角色反转的好与坏的完成情况，但其敏感性低于人类，并且能够稳健地检索名词上位词，但在进行挑战性的推理和基于角色的事件预测方面存在困难，特别是对否定语境的影响表现出明显的敏感性不足。

创建时间：

2025-09-03

原始信息汇总

数据集概述

基本信息

数据集名称: LM Diagnostics (cprag) Clone
许可证: MIT License
语言: 英语 (en)
数据规模: 小于1K样本

数据集描述

该数据集为诊断数据集 (cprag)，源自论文《What BERT is not: Lessons from a new suite of psycholinguistic diagnostics for language models》，作者为Allyson Ettinger。

引用信息

引用该数据集时，请使用以下BibTeX条目：

bibtex @article{10.1162/tacl_a_00298, author = {Ettinger, Allyson}, title = {What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models}, journal = {Transactions of the Association for Computational Linguistics}, volume = {8}, pages = {34-48}, year = {2020}, month = {01}, abstract = {Pre-training by language modeling has become a popular and successful approach to NLP tasks, but we have yet to understand exactly what linguistic capacities these pre-training processes confer upon models. In this paper we introduce a suite of diagnostics drawn from human language experiments, which allow us to ask targeted questions about information used by language models for generating predictions in context. As a case study, we apply these diagnostics to the popular BERT model, finding that it can generally distinguish good from bad completions involving shared category or role reversal, albeit with less sensitivity than humans, and it robustly retrieves noun hypernyms, but it struggles with challenging inference and role-based event prediction— and, in particular, it shows clear insensitivity to the contextual impacts of negation.}, issn = {2307-387X}, doi = {10.1162/tacl_a_00298}, url = {https://doi.org/10.1162/tacl_a_00298}, eprint = {https://direct.mit.edu/tacl/article-pdf/doi/10.1162/tacl_a_00298/1923116/tacl_a_00298.pdf}, }

搜集汇总

数据集介绍

构建方式

在心理语言学与自然语言处理交叉研究领域，lm-diagnostics-cprag数据集通过精心设计的诊断任务构建而成。其构建过程借鉴了人类语言实验方法，针对语言模型在上下文预测中的信息利用机制，系统性地设计了涵盖范畴共享、角色反转、否定语境影响等多种语言现象的实验条目。每个条目均经过严格控制，确保能够有效探测模型对特定语言结构的敏感性。

特点

该数据集最显著的特点在于其高度靶向性的诊断能力，专门用于揭示语言模型在心理语言学维度上的表现特性。它包含精心设计的对比项，能够量化模型对否定语境、事件角色推理及范畴关系等复杂语言现象的处理能力。通过控制实验变量，该数据集可精确检测模型与人类语言认知之间的差异，为理解预训练模型的语言表征机制提供重要窗口。

使用方法

研究人员可将该数据集作为标准化的评估工具，系统测试语言模型在心理语言学任务上的性能表现。使用时只需将模型生成的上下文预测结果与数据集中的标准答案进行对比，通过准确率等指标量化模型对特定语言现象的敏感性。该数据集特别适用于分析模型对否定结构、推理任务和语义角色理解的缺陷，为模型改进提供明确的方向性指导。

背景与挑战

背景概述

语言模型诊断数据集（lm-diagnostics-cprag）由Allyson Ettinger于2020年构建，旨在系统评估预训练语言模型的心理语言学能力。该数据集源于对BERT等模型在深层语言理解方面局限性的科学探讨，通过引入人类语言实验中的诊断方法，检验模型对上下文信息的敏感度与推理机制。其研究成果发表于《Transactions of the Association for Computational Linguistics》，为计算语言学领域提供了可复现的评估框架，推动了模型可解释性研究的发展。

当前挑战

该数据集核心挑战在于解决语言模型对复杂语言现象的建模缺陷，特别是否定语境推理、事件角色预测和范畴逆转等心理语言学任务。构建过程中需将人类实验范式转化为机器可读的诊断用例，确保语言样本的严格控制与语义一致性，同时避免数据偏差对模型评估的干扰，这对标注精度与理论适配性提出了较高要求。

常用场景

经典使用场景

在心理语言学与计算语言学的交叉领域，lm-diagnostics-cprag数据集被广泛用于评估预训练语言模型的语言理解能力。该数据集通过精心设计的诊断任务，如类别共享与角色反转测试，为研究者提供了探测模型语义敏感性的标准化工具，尤其在分析上下文预测机制方面展现出重要价值。

衍生相关工作

该数据集催生了多项经典研究工作，例如基于心理语言学指标的模型对比分析框架、针对否定敏感性的增强训练方法，以及跨模型架构的通用诊断基准。这些衍生工作不仅深化了对BERT等模型认知局限的理解，更推动了诊断式评估在语言模型研究中的标准化进程。

数据集最近研究