zhihz0535/X-SVAMP_en_zh_ko_it_es
收藏Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhihz0535/X-SVAMP_en_zh_ko_it_es
下载链接
链接失效反馈官方服务:
资源简介:
X-SVAMP是一个用于评估多语言大语言模型(LLMs)的基准测试,包含五种语言(英语、中文、韩语、意大利语和西班牙语)的问题和答案,旨在评估LLMs的数学推理能力。数据集由GPT-4-turbo从原始英文版SVAMP翻译而来。每个问题都附有逐步思考的提示,并且每个示例由id、instruction和answer三个字段组成。
X-SVAMP是一个用于评估多语言大语言模型(LLMs)的基准测试,包含五种语言(英语、中文、韩语、意大利语和西班牙语)的问题和答案,旨在评估LLMs的数学推理能力。数据集由GPT-4-turbo从原始英文版SVAMP翻译而来。每个问题都附有逐步思考的提示,并且每个示例由id、instruction和answer三个字段组成。
提供机构:
zhihz0535
原始信息汇总
X-SVAMP 数据集概述
数据集描述
X-SVAMP 是一个用于评估多语言大型语言模型(LLMs)的基准测试数据集,包含五种语言(英语、中文、韩语、意大利语和西班牙语)的问题和答案。该数据集旨在评估 LLMs 的数学推理能力,由 GPT-4-turbo 从原始的英语版本 SVAMP 翻译而来。
数据集结构
每个示例包含三个字段:
- id: 示例的数字 ID,不同语言中相同 ID 的示例是互为翻译。
- instruction: 语言模型的问题,每个问题都附带一个思维链提示。可以根据需要更改此提示。
- answer: 问题的参考答案,SVAMP 仅包含非负整数答案。
语言和许可
- Languages: 英语, 中文, 韩语, 意大利语, 西班牙语
- License: MIT
搜集汇总
数据集介绍

构建方式
在自然语言处理与多语言大模型评估的研究背景下,X-SVAMP数据集的构建旨在填补多语言数学推理基准的空白。该数据集基于原始的英文SVAMP数学推理评测集,借助GPT-4-turbo的强大翻译能力,将问题和答案精准地转化为中文、韩语、意大利语和西班牙语,从而形成一个包含五种语言的对齐语料库。每个语言版本均保留了原始数据的结构,包括唯一标识符、指令和参考答案,确保跨语言样本间的一一对应关系。
特点
X-SVAMP数据集的核心特点在于其多语言覆盖与数学推理评测的双重属性。它涵盖了英语、中文、韩语、意大利语和西班牙语五种语言,为评估多语言大模型的数学推理能力提供了标准化基准。每个问题均附带了思维链提示,引导模型逐步推理,使得评估过程更贴近人类认知模式。此外,数据集规模适中,约在千至万条样本之间,既保证了评测的充分性,又避免了过大的计算负担,适用于零样本生成式评测场景。
使用方法
在实际应用中,X-SVAMP数据集主要用于零样本生成式评测。用户可直接将包含思维链提示的问题输入至经过指令微调的多语言大模型,收集其生成的推理过程与最终答案。随后,借助GPT-3.5-turbo等工具从模型响应中提取预测答案,并与参考答案进行比对以计算准确率。研究者可根据需要灵活调整思维链提示内容,以适应不同任务设置。该数据集以JSON格式存储,便于加载与处理,支持按语言分片使用,适配多种评估框架。
背景与挑战
背景概述
在自然语言处理领域,多语言大语言模型的数学推理能力评估一直是研究前沿的重要课题。X-SVAMP数据集由Zhihan Zhang、Dong-Ho Lee等研究人员于2023年提出,旨在构建一个跨语言数学推理基准,以填补现有评估体系在多语言场景下的空白。该数据集基于英文SVAMP,通过GPT-4-turbo翻译为中文、韩语、意大利语和西班牙语,涵盖五种语言,每个样本包含问题、指令和参考答案,核心研究问题在于探究多语言环境下大语言模型能否准确执行数学推理。其影响力体现在为跨语言指令微调研究提供了标准化测试工具,推动了PLUG等方法的验证与发展,相关论文发表于arXiv,已成为评估多语言LLM数学能力的重要参考。
当前挑战
X-SVAMP数据集面临多重挑战。首先,在领域问题层面,它解决的是多语言数学推理评估的难题,不同语言间语义等价性难以保证,翻译过程可能引入歧义或文化偏差,影响模型推理的公平性。其次,构建过程中的挑战显著:原始SVAMP仅含英文,翻译依赖GPT-4-turbo,其输出质量可能因语言差异而不稳定,需人工校验确保准确性;此外,答案格式局限于非负整数,限制了推理任务的复杂度,无法覆盖分数或负数场景。数据集规模较小(1K-10K样本),可能不足以支撑模型泛化能力的全面测试,跨语言零样本评估时,指令微调模型的思维链响应提取依赖GPT-3.5-turbo,存在误差累积风险,这些因素共同构成了评估可靠性的关键瓶颈。
常用场景
经典使用场景
X-SVAMP数据集作为多语言数学推理能力的评估基准,其经典应用场景在于衡量大语言模型在跨语言环境下的数学问题求解水平。研究者在零样本生成设定下,利用指令微调模型对五语种(英、中、韩、意、西)的数学文字题进行链式推理,通过GPT-3.5-turbo提取答案并与参考答案比对以计算准确率。该场景聚焦于模型能否跨越语言屏障,保持一致的数学逻辑推导能力。
解决学术问题
该数据集有效解决了多语言大模型数学推理能力缺乏统一评估标准的问题。在学术研究中,它使研究者能够系统性地比较模型在不同语言下的算术与代数推理表现,揭示语言差异对思维链生成的影响。其核心贡献在于提供了严格对照的翻译对齐样本,为探究推理能力迁移、跨语言泛化及提示工程优化等关键议题奠定了可靠的数据基础,推动了多语言推理领域的量化分析。
衍生相关工作
该数据集衍生了多项经典工作,例如基于其结构开展的跨语言指令调优研究,如PLUG方法利用枢轴语言增强多语言推理能力。研究者还借鉴其翻译对齐范式,构建了更多语种的数学推理测试集,并探索了不同链式提示策略对多语言模型的影响。相关工作进一步验证了思维链推理在非英语环境下的有效性,推动了多语言大模型在数学领域评估方法的标准化与多样化发展。
以上内容由遇见数据集搜集并总结生成



