EXECUTE

Name: EXECUTE
Creator: 慕尼黑工业大学计算信息与技术学院, 慕尼黑大学信息与语言处理中心, 慕尼黑机器学习中心, 慕尼黑数据科学研究所
Published: 2025-05-23 19:56:48
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/Leukas/EXECUTE

下载链接

链接失效反馈

官方服务：

资源简介：

EXECUTE数据集是一个多语言基准，用于测试语言模型（LLMs）在不同语言中对token的理解能力。该数据集基于CUTE基准，扩展到了更多具有不同脚本和书写系统的语言。数据集主要包含8种语言，涵盖了所有已知的书写系统。数据集的创建过程包括使用TinyStories数据集中的故事，并对非英语语言进行翻译。数据集的应用领域是为了评估LLMs在不同语言中对token的处理能力，旨在解决LLMs在字符序列操作和字符组件理解方面的挑战。

The EXECUTE dataset is a multilingual benchmark developed to evaluate the token understanding capabilities of Large Language Models (LLMs) across diverse languages. Built upon the CUTE benchmark, this dataset has been expanded to include more languages with distinct scripts and writing systems. It primarily covers 8 languages that span all known writing systems. The dataset construction process leverages stories from the TinyStories dataset, followed by translation into non-English languages. The core application of this benchmark is to assess the token processing performance of LLMs across different languages, with the objective of addressing the challenges of character sequence manipulation and character component comprehension faced by LLMs.

提供机构：

慕尼黑工业大学计算信息与技术学院, 慕尼黑大学信息与语言处理中心, 慕尼黑机器学习中心, 慕尼黑数据科学研究所

创建时间：

2025-05-23

原始信息汇总

EXECUTE数据集概述

数据集简介

全称：Expandable X(cross)-lingual Extension of CUTE
性质：CUTE基准的多语言扩展版本
覆盖语言：
- 已验证翻译：阿姆哈拉语、阿拉伯语、中文、英语、德语、韩语、日语、俄语、西班牙语
- 未验证数据：桑塔利语、塔马齐格特语、科萨语

主要功能

评估功能：支持对多语言模型进行任务评估
任务类型：
- 组合任务（拼写、反向拼写、包含字符、包含单词）
- 操作任务（插入/删除/替换/交换字符或单词）
- 字符级任务
- 单词级任务
- 其他任务（拼写和反向拼写）

使用方法

安装依赖

bash pip install -e .

运行评估

bash python execute.py --model llama31-8b --task contains_char --lang eng

参数说明

--model：模型名称（支持自动从Hub下载）
--model_path：自定义模型路径
--big_model：支持多GPU加载
--batch_size：批处理大小
--lang：ISO-3语言代码
--task：基准任务（支持逗号分隔列表或预定义子集）
--extra_task：额外任务（all/none/g2c/c2g/k2h）

数据生成

添加新数据集

翻译TinyStories数据集 bash python ./data_gen/translate_data.py --lang deu --resume
生成EXECUTE数据集 bash python ./data_gen/gen_all.py --lang deu

扩展功能

子字符任务

支持韩文字母分解等特殊任务
需要额外Python环境（python3.9）和相关库

密码实验

支持生成加密文本 bash python ./data_gen/gen_all.py --lang eng --cipher amh

字节级实验

目前仅支持Llama 3模型 bash python execute.py --model llama31-8b --task all --lang eng --byte_tokenizer data/byte_tokenizers/llama3/

输出存储

评估结果存储在：

model_outputs/outputs.{model}.{task}.txt
model_outputs/labels.{model}.{task}.txt
model_outputs/score.{model}.{task}.txt

搜集汇总

数据集介绍

构建方式

EXECUTE数据集作为CUTE基准的多语言扩展，采用模块化构建策略实现跨语言适配。研究团队从TinyStories数据集中精选5000个故事，通过Google Translate完成八种语言的平行语料转换，涵盖拉丁字母、阿拉伯字母、天城文等多种文字系统。针对中日韩等特殊语言，采用jieba和nagisa分词工具进行预处理，并创新性地构建了包含字符-词汇-标记（CWT）统计量的元数据。数据验证环节由专业语言学者参与，确保翻译文本在保留原意的基础上适应不同书写体系的特性。

特点

该数据集的核心价值在于其多维度评估体系：首先覆盖8种差异显著的书写系统（如阿姆哈拉语的格厄兹字母、阿拉伯语的辅音音素文字），通过字符操作任务揭示LLM的跨语言处理差异；其次设计汉字部首分解、韩文字母拆分等子字符实验，深入探究模型对文字结构的理解能力；最后引入CWT统计量建立语言分类体系，发现模型表现与字符-词汇-标记的分布规律存在显著相关性。特别值得注意的是，数据揭示了低资源语言的反常优势现象，为研究语言偏差提供了新视角。

使用方法

使用EXECUTE需遵循标准化评估协议：加载预处理后的平行语料后，通过统一API调用12类基础任务（如字符插入、词序调换）和3类子字符任务。评估时需记录模型在各语言任务中的准确率，并对照CWT统计量进行归因分析。研究者可基于模块化设计扩展新语言，仅需提供目标语言的翻译文本和分词工具。为保障结果可比性，建议采用论文中的提示词模板，并固定随机种子。数据集特别适用于探究多语言模型的字符编码偏差、子成分理解能力等前沿问题。

背景与挑战

背景概述

EXECUTE（Expandable X(Cross)-Lingual Extension of CUTE）是由慕尼黑工业大学和慕尼黑大学的研究团队于2024年提出的多语言基准测试数据集，旨在评估大型语言模型（LLMs）对不同语言字符和子字符级别的理解能力。该数据集扩展了早期的CUTE基准测试，涵盖了包括阿拉伯语、汉语、日语、韩语等8种不同书写系统的语言，重点关注语言模型在字符操作任务上的表现。EXECUTE的创建填补了多语言字符理解评估的空白，为研究语言模型在处理不同语言结构和书写系统时的能力提供了重要工具。

当前挑战

EXECUTE数据集面临的核心挑战体现在两个方面：领域问题方面，该数据集揭示了LLMs在处理非英语语言时的显著差异，特别是在字符级操作（如拼写、插入、删除）上的表现不稳定，且对汉语、日语等语言的子字符组件（如部首、Jamo）理解不足；构建过程方面，团队需要克服多语言数据对齐的复杂性，处理不同书写系统（如阿拉伯语的Abjad、印地语的Abugida）的独特规则，并解决低资源语言（如阿姆哈拉语）的标注难题，同时确保翻译质量与任务设计在不同语言间的可比性。

常用场景

经典使用场景

EXECUTE数据集作为多语言基准测试工具，其经典使用场景在于评估大型语言模型（LLMs）对不同语言字符和子字符结构的理解能力。特别是在处理非拉丁语系（如阿拉伯语、汉语、日语）时，研究者通过拼写转换、字符插入删除等任务，系统分析模型在字符粒度上的表现差异。该数据集通过标准化测试框架，揭示了LLMs在阿姆哈拉语等低资源语言中表现反常识提升的现象，为模型架构优化提供了独特视角。

实际应用

在实际应用中，EXECUTE为跨国企业的多语言文本处理系统提供了关键评估标准。例如在机器翻译领域，可检测模型对汉语偏旁部首或阿拉伯语变音符号的敏感度；在语音合成系统中，能验证韩文字母到音素的转换准确性。教育科技公司可依据其子字符任务结果，开发针对日语假名与汉字转换的智能学习工具。该数据集尤其适用于需要处理复杂文字系统的全球化产品迭代。

衍生相关工作

该数据集催生了多个重要研究方向：Wu等人（2025）基于其汉字部首分析开发了视觉信息评估框架；Pagnoni等（2024）提出的字节潜在变换器直接受EXECUTE低资源语言表现的启发。在产业界，Gemma 2和Qwen 2.5等模型的技术报告中均引用该基准优化多语言tokenizer。后续工作进一步扩展至泰米尔语等未被覆盖的文字系统，形成跨文字类型的模型评估谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集