five

danish-foundation-models/multilingual-gsm-symbolic

收藏
Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/danish-foundation-models/multilingual-gsm-symbolic
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual GSM-Symbolic是一个用于评估大型语言模型在多语言环境下算术推理能力的基准数据集。它扩展了Apple的GSM-Symbolic方法,通过提供符号模板生成数千个结构相同但数值不同的数学问题。数据集包含多种语言配置(英语、丹麦语、挪威博克马尔语、德语、冰岛语)和分割(原始和合成),以测试模型的理解能力与模式匹配能力。数据集结构包括问题、答案、目标、语言和源ID字段,答案遵循GSM8K的格式。数据集还提供了加载方法、评估结果和引用信息。

Multilingual GSM-Symbolic is a benchmark for evaluating arithmetic reasoning in large language models across multiple languages. It extends Apples GSM-Symbolic approach by providing symbolic templates that generate thousands of structurally equivalent but numerically distinct math problems. The dataset includes multiple language configurations (English, Danish, Norwegian Bokmål, German, Icelandic) and splits (original and synthetic) to test model understanding versus pattern-matching. The dataset structure includes fields such as question, answer, target, language, and source ID, with answers following the GSM8K format. It also provides loading instructions, evaluation results, and citation information.
提供机构:
danish-foundation-models
搜集汇总
数据集介绍
main_image_url
构建方式
Multilingual GSM-Symbolic 数据集基于 Apple 提出的 GSM-Symbolic 范式构建,通过符号化模板生成大量结构等价但数值迥异的数学问题。每个语言配置包含两个子集:original 分片收录了该语言对应的 100 道经典 GSM 问题,而 synthetic 分片则利用模板为每道原始题目派生 20 个变体,共计 2000 个样本。这些模板覆盖英语、丹麦语、德语、冰岛语和挪威语五种语言,借助专用开源包完成模板定义与问题自动生成,确保跨语言语义一致性与数值多样性。
特点
该数据集以多语言算术推理评估为核心特色,通过对比模型在 original 与 synthetic 分片上的准确率差异,直接度量模型对数字记忆的依赖程度与真实推理能力。每个样本包含详细的逐步解答(answer)以及提炼后的最终数值答案(target),便于灵活评估。数据集还提供了每道题在原始 GSM8K 中的索引(source_id),支持细粒度溯源分析,是测试大语言模型数学推理鲁棒性的独特基准。
使用方法
用户可通过 Hugging Face Datasets 库便捷加载数据集,只需指定语言配置名(如 eng、deu)与分片(original 或 synthetic)即可获得所需子集。例如,`load_dataset('danish-foundation-models/multilingual-gsm-symbolic', name='eng', split='synthetic')` 可加载英语合成数据。此外,数据集原生集成 inspect-ai 评估框架,可通过命令行直接运行多语言推理测试,例如 `inspect eval hf/.../synthetic_eng --model openai/gpt-5.4-nano`,并支持自定义推理努力参数,便于系统化模型评估。
背景与挑战
背景概述
在大型语言模型(LLM)的数学推理能力评估中,标准基准如GSM8K常因数值记忆效应而无法区分模型是真正理解问题还是依赖模式匹配。为应对这一局限,Apple于2024年提出了GSM-Symbolic方法,通过符号化模板生成结构等价但数值不同的样本,以量化模型对数字变化的鲁棒性。在此基础上,来自丹麦奥胡斯大学人文计算中心(Centre for Humanities Computing)的Kenneth Enevoldsen等人于2024年构建了Multilingual GSM-Symbolic数据集,将这一范式扩展至英语、丹麦语、德语、冰岛语和挪威语五种语言。该数据集包含每种语言的100道原始数学题及其对应的2000道合成变体,旨在系统评估LLM在多语言环境下的算术推理能力,为揭示模型在语言迁移和数值泛化中的表现差异提供了关键工具,对推动多语言数学推理研究具有重要影响。
当前挑战
该数据集所解决的领域核心挑战在于:现有数学推理基准(如GSM8K)无法剥离模型对训练数据中特定数值的记忆效应,从而难以准确衡量模型的真实泛化能力。Multilingual GSM-Symbolic通过符号化模板生成数值不同的变体,直接量化模型在数值变化下性能的退化程度,填补了评估模型推理泛化性的空白。在构建过程中,主要挑战包括:1)跨语言模板的生成与对齐,需确保每种语言的100个模板在语义和逻辑结构上严格等效,同时符合本地语言表达习惯;2)合成样本的数值多样性控制,避免引入无意中的偏见或模式,确保所有变体在数学难度上保持一致;3)低资源语言(如冰岛语)的模板验证依赖人工审核,过程耗时且需语言学专家参与,限制了数据集的扩展速度与规模。
常用场景
经典使用场景
Multilingual GSM-Symbolic 数据集为评估大语言模型在多语言环境下的算术推理能力提供了严谨的基准。其核心设计在于通过符号模板生成结构等价但数字不同的数学问题,从而区分模型是真正理解问题逻辑,还是仅依赖训练数据中的数字模式进行记忆匹配。研究者可通过对比模型在原始(original)与合成(synthetic)分片上的表现差异,精准量化其推理鲁棒性。该数据集涵盖英语、丹麦语、德语、冰岛语和挪威语等多种语言,支持跨语言推理能力的对比分析,为探究语言特异性对数学推理的影响提供了标准化测试框架。
衍生相关工作
该数据集衍生了一系列关于大语言模型数学推理鲁棒性的经典研究。例如,研究者利用其符号模板机制深入分析了推理步骤数量与性能衰减的关系,发现复杂推理链对数字变异更为敏感。此外,基于该数据集的语言间性能差距分析,催生了针对低资源语言(如冰岛语)的模板验证与翻译质量优化工作。未来,该数据集有望推动跨语言推理增强技术(如自适应提示工程、多语言思维链)的发展,并成为构建更具泛化能力的神经符号系统的基准测试场,进一步探索语言与推理认知之间的深层关联。
数据集最近研究
最新研究方向
在大规模语言模型算术推理能力评估的前沿探索中,Multilingual GSM-Symbolic数据集的诞生标志着对模型泛化性与记忆性边界刻画的细致追求。该基准通过符号化模板机制,在英语、丹麦语、德语、冰岛语、挪威语等多个语言维度上生成数万道结构等效但数值相异的数学问题,从而精准量化模型在脱离训练数据分布后推理能力的衰减幅度。相关研究发现,即便如GPT-5.4-nano般先进的语言模型,其在原始GSM问题集上的准确率(英语90.0%,丹麦语83.2%)相较于合成变体集(英语75.2%,丹麦语70.2%)存在显著滑落,这一性能鸿沟直观揭示了当前模型仍难以完全摆脱对特定数值模式的经验依赖。该数据集所引发的热点讨论聚焦于语言迁移对算术推理稳健性的影响,以及如何通过跨语言符号化基准推动模型从机械记忆向通约性数学认知的跃迁,为构建真正具备语言无关推理能力的AI系统提供了关键的诊断工具与理论启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作