TASE

Name: TASE
Creator: 北京大学
Published: 2025-08-07 23:11:17
License: 暂无描述

arXiv2025-08-07 更新2025-08-12 收录

下载链接：

https://github.com/cyzcz/Tase

下载链接

链接失效反馈

官方服务：

资源简介：

TASE是一个全面的语言模型评估基准，旨在测试模型在细粒度、标记级理解和结构推理方面的能力。它覆盖了中文、英文和韩文三种语言，包括标记感知和结构理解两个核心类别下的10个任务。数据集包含35,927个实例，并有一个可扩展的合成数据生成管道用于训练。这些任务包括字符计数、标记对齐、句法结构解析和长度约束满足等。

提供机构：

北京大学

创建时间：

2025-08-07

原始信息汇总

TASE Benchmark for Token-Aware & Structured Evaluation

数据集概述

TASE是一个多语言基准测试，用于评估大型语言模型（LLMs）在细粒度token感知和结构化推理方面的能力。

数据集类别

Token Awareness（Token感知）
- 任务：diff_tokens, freq_count, sentence_length, shuffle_tokens, sort_lengths
Token Structure（Token结构）
- 任务：component_count, component_split, dot_matrix, structure_riddle, variant_normalize

数据集内容

合成数据管道：位于tasks/和generate_code/目录下。
YAML配置文件：存储在yamls/目录下。
自动评估脚本：位于evaluate/目录下。

数据集结构

├─data/ # 预生成的评估集和示例输出 ├─evaluate/ # 评分和批量评估工具 │ ├─run_eval.py # 评估一个模型在一个YAML配置上的表现 │ └─batch_eval.py # 批量评估多个模型/配置 ├─tasks/ # 每个任务的源代码和资源 │ ├─token_awareness/ │ └─token_structure/ └─yamls/ # 所有YAML配置文件

快速开始

环境设置 bash python -m venv .venv && source .venv/bin/activate pip install -r requirements.txt
运行单个评估 bash python evaluate/run_eval.py --config yamls/<your_config>.yaml
评分现有模型输出 bash python evaluate/batch_eval.py --input_dir output/ --output_dir output_metric/

YAML配置

提供者类型：hf（HuggingFace）、api（远程API）、vllm（本地vLLM）。
模型名称或路径：根据提供者类型选择。
生成参数：包括温度、最大token数、top-p阈值等。
特定提供者参数：如HuggingFace的trust_remote_code、vLLM的max_model_len等。

数据集生成管道

如需重新生成数据集，进入任务的generate_code/目录并运行相应的Python脚本。生成的数椐集将出现在对应的dataset/文件夹中。

搜集汇总

数据集介绍

构建方式

TASE数据集通过程序化生成和精选评估实例构建，涵盖英语、中文和韩语三种语言，包含35,928个评估实例。数据生成流程采用语言特定的结构分析工具，确保实例的多样性和正确性。例如，英语任务从COCA高频词列表中采样，中文任务基于通用标准汉字表，韩语任务则使用标准韩文字符。每个任务实例均通过自动化脚本生成，确保数据的一致性和可扩展性。

使用方法

TASE数据集适用于评估和提升大语言模型的令牌级理解能力。研究人员可通过该数据集进行模型性能基准测试，特别关注令牌感知和结构理解任务。数据集支持零样本评估和链式思维（CoT）提示策略，适用于分析模型在多语言环境下的表现差异。此外，合成数据生成管道可用于模型微调，如GRPO算法所示，显著提升模型在细粒度任务上的表现。使用时应遵循标准化评估流程，包括自动答案提取和任务特定评分函数。

背景与挑战

背景概述

TASE（Token Awareness and Structured Evaluation）数据集由北京大学的研究团队于2025年提出，旨在填补大语言模型（LLMs）在细粒度、跨语言令牌级理解能力评估上的空白。该数据集聚焦两大核心维度——令牌感知（如字符计数、令牌对齐）和结构化理解（如句法分析、视觉模式识别），涵盖中、英、韩三种类型学迥异的语言体系，包含35,927个评估实例。其创新性在于突破了传统基准（如GLUE、XNLI）对高层语义任务的单一关注，首次系统化构建了低层级语言能力的诊断框架，为揭示LLMs在精确文本控制与跨语言泛化等关键领域的局限性提供了标准化工具。

当前挑战

TASE针对两大挑战展开：其一，领域问题层面，现有LLMs在需精确令牌级推理的任务（如韩语音节重组、汉字部件拆解）中表现显著落后于人类，尤其在非拉丁语系场景下，子词分词机制导致的'令牌器盲区'现象突出；其二，构建过程中需克服多语言结构异构性（如汉字部首、韩语Jamo的复合规则），通过程序化合成管道确保35k+实例的形态学正确性，同时设计抗干扰评估指标以区分模型真实能力与表面模式匹配。此外，数据平衡性（如符号识别仅占976例）与视觉表征转换（如点阵字符渲染）亦构成技术难点。

常用场景

经典使用场景

TASE数据集在多语言大语言模型（LLMs）的细粒度评估中具有重要应用。该数据集通过涵盖字符计数、词对齐、句法结构解析和长度约束满足等任务，为研究者提供了一个全面的评估平台。特别是在中文、英文和韩文三种语言环境下，TASE能够有效测试模型在token感知和结构理解方面的能力。

解决学术问题

TASE数据集解决了当前LLMs在细粒度、token级别理解和结构化推理方面的不足。通过设计10个任务，该数据集揭示了模型在字符计数、词对齐等基础任务上的弱点，填补了传统评测基准（如GLUE、SuperGLUE）在高层次语义理解之外的空白。其意义在于为改进模型在低层次语言理解和跨语言泛化能力提供了新的诊断工具。

实际应用

在实际应用中，TASE数据集可用于优化多语言模型的token感知能力，提升其在需要精确控制的场景（如拼写检查、文本编辑和语言生成）中的表现。此外，该数据集还可用于教育工具和对话系统的开发，确保模型在基础语言任务上的可靠性。

数据集最近研究