Text Aphasia Battery (TAB)

Name: Text Aphasia Battery (TAB)
Creator: 斯坦福大学, 加州大学旧金山分校, 天普大学, 圣地亚哥州立大学, 加州大学圣地亚哥分校
Published: 2025-11-26 01:16:38
License: 暂无描述

arXiv2025-11-26 更新2025-11-27 收录

下载链接：

https://talkbank.org/aphasia/

下载链接

链接失效反馈

官方服务：

资源简介：

文本失语症电池是由斯坦福大学等多家研究机构联合开发的临床基础基准，专为评估语言模型中的失语症样缺陷而设计。该数据集包含561个英语文本样本，其中306个来自失语症患者的AphasiaBank转录资料，255个为AI生成文本，涵盖连接文本、词汇理解等四个子测试维度。数据集通过改编临床验证的快速失语症电池核心组件，采用自动化协议确保评估可靠性。主要应用于计算语言病理学领域，旨在建立标准化文本评估框架以解析人工智能系统的语言退化模式。

The Text Aphasia Battery is a foundational clinical benchmark jointly developed by Stanford University and multiple other research institutions, specifically engineered to assess aphasia-like deficits in language models. This dataset contains 561 English text samples, with 306 derived from AphasiaBank transcriptions of aphasic patients and the remaining 255 being AI-generated texts. It encompasses four sub-test dimensions, including connected text and lexical comprehension, among others. The dataset adapts core components of the clinically validated Quick Aphasia Battery, and utilizes automated protocols to ensure evaluation reliability. Primarily deployed in the field of computational patholinguistics, it aims to establish a standardized text evaluation framework for dissecting language degradation patterns in artificial intelligence systems.

提供机构：

斯坦福大学, 加州大学旧金山分校, 天普大学, 圣地亚哥州立大学, 加州大学圣地亚哥分校

创建时间：

2025-11-26

搜集汇总

数据集介绍

构建方式

在失语症临床评估领域，传统多模态测试工具难以适配纯文本语言模型评估的背景下，文本失语症成套测验（TAB）通过临床验证的快速失语症成套测验（QAB）核心组件重构而成。该数据集构建严格遵循三项设计原则：模态约束确保所有输入输出均为文本形式，计算可解释性聚焦于可自动化分析的显性语言模式，临床基础保障评估标准源自权威失语症研究框架。开发过程中与言语病理学家深度协作，将APROCSA听觉感知评分系统的19项特征转化为适用于文本环境的二元评分体系，最终形成包含连贯文本、词汇理解、句子理解和复述四个子测试的标准化评估框架。

使用方法

在计算语言学研究中，TAB数据集为系统化评估语言模型的语言能力退化提供了标准化操作流程。实施评估时需依次执行四个子测试：连贯文本子测试通过五个开放式提示诱发模型生成3-5句自然回应，随后采用经过验证的自动化协议对19项失语症特征进行标注；词汇理解和句子理解子测试分别通过五项强制选择与是非判断题考察词汇语义和句法处理能力；复述子测试则要求模型精确重现五个复杂度递增的语言单元。为确保评估可靠性，研究者可采用Gemini 2.5 Flash实现的自动化评分系统，该协议在特征流行度加权后达到与人类专家相当的评分者间信度（κ=0.255）。这种标准化流程特别适用于模型消融研究、对抗鲁棒性测试等需要量化语言完整性变化的实验场景。

背景与挑战

背景概述

文本失语症评估集（TAB）由斯坦福大学联合多所研究机构于2025年提出，旨在构建适用于大语言模型的失语症评估基准。该数据集基于临床验证的快速失语症评估工具（QAB），通过四个子测试模块——连贯文本、词汇理解、句子理解与复述任务，系统化检测语言模型在词汇检索、句法结构及语义连贯性等维度的缺陷。其创新性在于将神经心理学诊断工具转化为计算语言学行为基准，为探索人工智能语言系统的认知机制提供了标准化研究框架。

当前挑战

构建过程需克服传统失语症评估工具的多模态依赖性问题，例如剔除听觉感知与运动表达等非文本维度，同时确保临床量表的语言学效度。核心挑战在于设计纯文本环境下的自动化评分协议，需平衡特征识别粒度与计算可扩展性，例如通过大语言模型实现APROCSA临床特征的二进制映射。领域应用层面需解决语言模型与人类认知机制的异质性问题，避免将计算缺陷直接类比为神经功能障碍，同时应对跨语言文化适配与指令跟随能力对评估效度的潜在影响。

常用场景

经典使用场景

在计算语言学领域，文本失语症评估量表作为连接临床失语症研究与人工智能语言模型评估的桥梁，其最经典的应用场景体现在系统性地检测大型语言模型中的失语样语言缺陷。通过四个精心设计的子测试——连贯文本生成、词汇理解、句子理解和重复任务，研究者能够量化评估模型在词汇检索、句法处理、语义连贯性等核心语言维度的表现。这种评估不仅揭示了模型的语言处理能力边界，更为理解计算系统中语言表征的脆弱性提供了标准化测量框架。

解决学术问题

该数据集有效解决了传统临床失语症评估工具无法直接应用于文本限定环境的学术难题。通过将快速失语症量表中的核心成分转化为纯文本评估任务，它克服了传统评估对多模态输入和人类特定语用背景的依赖。这一创新使得研究者能够系统探究语言模型在语法准确性、语义连贯性、词汇检索等结构语言能力方面的缺陷，为理解计算系统中语言表征的稳定性提供了新的研究方法论，填补了临床语言学与计算语言学之间的评估空白。

实际应用

在实际应用层面，文本失语症评估量表为语言模型的系统性评估提供了标准化工具。研究团队可利用其进行模型消融研究，通过参数归零、注意力头移除等干预手段模拟语言表征损伤，进而分析架构变化对语言完整性的影响。该工具还适用于对抗鲁棒性测试，探测模型在干扰下的稳定性，以及在可解释性研究中建立内部表征与可观测语言模式之间的映射关系。这些应用为改进语言模型架构和训练策略提供了实证基础。

数据集最近研究