tokenizer_robustness_completion_math
收藏Hugging Face2025-09-15 更新2025-09-16 收录
下载链接:
https://huggingface.co/datasets/r-three/tokenizer_robustness_completion_math
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多语言数据集,旨在用于测试数学上下文中分词器的鲁棒性。数据集包括各种配置和功能,如问题、选项、答案以及不同模型的语言和标记计数元数据。它支持多项选择任务,并支持中文、波斯语、意大利语和LaTeX等多种语言和格式。数据集还设计用于测试分词器对装饰性Unicode字符和空格删除等修改的鲁棒性。
创建时间:
2025-09-09
原始信息汇总
Tokenization Robustness Math 数据集概述
基本信息
- 数据集名称: Tokenization Robustness Math
- 许可证: CC
- 多语言支持: 多语言
- 任务类别: 多项选择
- 标签: 多语言、分词
数据集配置
数据集包含7个配置,每个配置包含21个测试样本:
-
tokenizer_robustness_completion_math_cannonical
- 下载大小: 30069字节
- 数据集大小: 11118字节
-
tokenizer_robustness_completion_math_chinese
- 下载大小: 34561字节
- 数据集大小: 11147字节
-
tokenizer_robustness_completion_math_decorative_unicode
- 下载大小: 34777字节
- 数据集大小: 11986字节
-
tokenizer_robustness_completion_math_farsi
- 下载大小: 34966字节
- 数据集大小: 12034字节
-
tokenizer_robustness_completion_math_italian
- 下载大小: 34744字节
- 数据集大小: 11219字节
-
tokenizer_robustness_completion_math_latex
- 下载大小: 34330字节
- 数据集大小: 11494字节
-
tokenizer_robustness_completion_math_space_removal
- 下载大小和数据集大小信息不完整
数据特征
所有配置共享相同的特征结构:
- question: 字符串类型的问题
- choices: 字符串列表选项
- answer: 整型答案索引
- answer_label: 字符串答案标签
- split: 字符串分割类型
- subcategories: 字符串子类别
- category: 字符串类别
- lang: 字符串语言
- second_lang: 字符串第二语言
- notes: 字符串注释
- id: 字符串标识符
- set_id: 浮点型集合ID
- variation_id: 浮点型变体ID
分词器评估指标
每个配置包含三个关键评估结构:
- vanilla_cos_sim_to_canonical: 原始余弦相似度对比
- trimmed_cos_sim_to_canonical: 修剪后余弦相似度对比
- token_counts: 分词数量统计
支持的分词器
评估涵盖14个主流分词器:
- CohereLabs/aya-expanse-8b
- Qwen/Qwen3-8B
- bigscience/bloom
- common-pile/comma-v0.1-1t
- facebook/xglm-564M
- google-bert/bert-base-multilingual-cased
- google/byt5-small
- google/gemma-2-2b
- gpt2
- meta-llama/Llama-3.2-1B
- microsoft/Phi-3-mini-4k-instruct
- mistralai/tekken
- tiktoken/gpt-4o
- tokenmonster/englishcode-32000-consistent-v1
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,分词稳健性对模型性能具有关键影响。该数据集通过系统化方法构建,涵盖数学问题及其多语言变体,包括中文、波斯语、意大利语等版本,并引入装饰性Unicode和LaTeX格式扰动。每个样本包含问题文本、多项选择答案及标注,通过对比不同分词器下的余弦相似度和词汇计数,量化分词差异对语义一致性的影响。
特点
数据集具备多维度特征,集成14种主流分词器的对比分析,如GPT-4o、Llama系列及多语言BERT等。其核心价值在于提供标准化评估指标,包括原始与修剪后的余弦相似度、词汇数量统计,以及跨语言和符号变体的稳健性测试。样本均附带语言标签和分类元数据,支持细粒度分析分词策略在数学推理任务中的表现差异。
使用方法
研究人员可加载指定配置(如中文或装饰性Unicode版本),通过标准接口访问问题-答案对及分词器对比指标。该数据集适用于评估分词算法在多语言数学语境下的稳健性,或作为基准测试模型抗干扰能力。典型应用包括计算不同分词器的相似度偏差,或分析特定符号处理对模型推理准确性的影响。
背景与挑战
背景概述
在自然语言处理领域,分词器的鲁棒性评估一直是关键研究课题。Tokenizer Robustness Math数据集应运而生,专注于多语言数学问题求解场景下的分词稳定性分析。该数据集通过构建包含规范形式、中文、装饰性Unicode、波斯语、意大利语、LaTeX及空格删除变体的多配置测试集,系统评估不同分词算法对数学表达式处理的敏感性。其设计旨在揭示跨语言符号系统中分词一致性对模型性能的影响机制,为多模态语言模型的稳健性提供量化基准。
当前挑战
该数据集核心挑战在于解决多语言数学符号系统的分词不一致性问题,具体表现为不同分词器对同一数学表达式产生歧义切分,导致下游推理任务性能波动。构建过程中需克服多语言数学符号的归一化表示难题,特别是在处理装饰性Unicode和LaTeX混合标记时,需保持语义等价性同时引入可控变异。另一挑战在于设计跨分词器的可比评估框架,需协调十余种主流分词器的输出空间以实现标准化度量。
常用场景
经典使用场景
在自然语言处理领域,Tokenizer Robustness Math数据集被广泛应用于评估多语言数学推理任务中分词器的鲁棒性表现。该数据集通过构建多种语言变体(包括中文、意大利语、波斯语等)和特殊格式(如LaTeX、装饰性Unicode)的数学选择题,系统测试不同分词算法对数学符号、多语言文本及特殊字符的处理能力,为跨语言数学推理模型提供基准测试平台。
实际应用
在实际应用中,该数据集为构建跨语言数学教育辅助系统提供关键技术支持。教育科技公司可依据其测试结果优化多语言数学解题器的分词策略,确保系统能正确处理包含特殊符号、多语言混合输入的数学问题。同时为国际化在线教育平台提供底层技术验证,保证不同语言用户获得一致的数学问题解答体验。
衍生相关工作
基于该数据集衍生的经典工作包括多模态数学推理系统的分词优化框架、跨语言数学问题生成模型以及鲁棒性分词器的评估标准体系。这些研究不仅扩展了多语言数学数据处理的理论边界,还为GPT-4、Llama等大语言模型在数学领域的应用提供了重要的改进依据,推动了学术界对分词鲁棒性与数学推理性能关联性的深入探索。
以上内容由遇见数据集搜集并总结生成



