MAPS
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/Fujitsu-FRE/Multilingual-Agentic-AI-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
MAPS是一个多语言基准测试套件,旨在评估在多种语言和任务中的智能体AI系统。该套件基于四个广泛使用的智能体基准:GAIA(现实世界任务)、SWE-bench(代码生成)、MATH(数学推理)和Agent Security Benchmark(安全性)。每个数据集被翻译成十种不同的语言,共包含805个独特的任务和8855个语言特定实例。MAPS基准套件使得对多语言环境如何影响智能体性能和鲁棒性进行系统分析成为可能。实验表明,从英语过渡到其他语言时,性能和安全性均出现明显下降,其严重程度因任务和翻译输入量而异。基于这些发现,本研究提供了具体的建议,以指导在多语言环境下智能体AI系统的发展和评估。MAPS基准套件公开可用。
MAPS is a multilingual benchmark suite designed to evaluate AI Agent systems across a wide range of languages and tasks. This suite is built upon four widely adopted agent benchmarks: GAIA (real-world tasks), SWE-bench (code generation), MATH (mathematical reasoning), and Agent Security Benchmark (security). Each dataset within the suite is translated into ten distinct languages, comprising a total of 805 unique tasks and 8,855 language-specific instances. The MAPS benchmark suite enables systematic analysis of how multilingual environments impact agent performance and robustness. Experiments demonstrate that significant declines in both performance and security occur when transitioning from English to other languages, with the severity varying across tasks and the volume of translated inputs. Based on these findings, this study provides concrete recommendations to guide the development and evaluation of AI Agent systems in multilingual environments. The MAPS benchmark suite is publicly available.
提供机构:
富士通欧洲研究院
创建时间:
2025-05-22
原始信息汇总
Multilingual Agentic AI Benchmark (MAPS) 数据集概述
数据集简介
- 目的:评估多语言环境下AI代理系统的性能与安全性
- 特点:首个系统化评估多语言AI代理的基准测试
- 任务总量:805个基础任务(翻译为11种语言后共8.8K个多语言任务)
核心组件
-
性能导向数据集(405任务):
- GAIA:165个工具使用和网页搜索任务
- MATH:140个高难度数学题(覆盖7个主题)
- SWE-bench:100个软件工程任务(GitHub真实问题)
-
安全评估数据集(400任务):
- ASB:全量400个安全相关提示词
语言支持
- 覆盖语言(11种):
- 主要:英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)、俄语(ru)
- 其他:日语(ja)、葡萄牙语(pt)、印地语(hi)、希伯来语(he)、韩语(ko)、意大利语(it)
数据规模
| 数据集 | 单语言任务数 | 总任务数(11语言) |
|---|---|---|
| GAIA | 165 | 1,815 |
| MATH | 140 | 1,540 |
| SWE-bench | 100 | 1,100 |
| ASB | 400 | 4,400 |
数据结构
- 文件格式:JSON
- 组织方式:
- 按数据集(GAIA/MATH/SWE/ASB)划分
- 按语言目录存储(如
data/english/math/)
创建方法
- 翻译流程:机器生成+人工验证的混合管道
- 质量评估:
- 双语标注者对翻译质量进行1-5级评分
- 评估维度:语义准确性、流畅性、格式保持度
典型用途
- 多语言鲁棒性对比
- 非英语输入的安全压力测试
- 跨语言推理能力基准测试
- 性能退化分析
引用文献
- GAIA基准(ICLR 2023)
- ASB基准(arXiv 2410.02644)
- MATH数据集(arXiv 2103.03874)
- SWE-bench(arXiv 2310.06770)
许可信息
- 许可证:MIT License
搜集汇总
数据集介绍

构建方式
MAPS数据集通过多阶段混合翻译流程构建,首先采用神经机器翻译(NMT)进行基础结构对齐,随后结合大语言模型(LLM)进行语义验证与增强。针对代码、数学符号等专业内容设计了掩码保护机制,并通过双语专家人工抽样验证(2,000条样本,错误率5.6%),最终形成覆盖11种语言的8,855个任务实例。该流程特别设计了条件回退机制:当LLM增强翻译未通过完整性检验时,自动回退至原始机器翻译版本,确保数据可靠性。
使用方法
使用MAPS需遵循任务-语言匹配原则:首先根据目标领域选择对应子集(如安全测试选用ASB),随后加载指定语言版本的任务指令。评估时需保持智能体原始配置不变,通过三次重复实验获取稳定性数据。对于高危场景,建议优先采用人工验证子集(190条/语言),并重点关注输入中自然语言占比高的任务。该基准支持两种分析模式:横向比较同一智能体跨语言表现,或纵向对比不同智能体在特定语言下的性能衰减。所有数据以标准化JSON格式存储,包含原始元数据和翻译质量评分。
背景与挑战
背景概述
MAPS(Multilingual Benchmark for Global Agent Performance and Security)是由Fujitsu Research of Europe、Fujitsu Limited和Cohere等机构的研究团队于2025年提出的多语言智能体评估基准。该数据集旨在解决基于大语言模型(LLM)的智能体系统在多语言环境下的性能与安全问题。随着智能体AI系统在代码生成、数学推理、安全评估等领域的广泛应用,其在非英语环境中的可靠性成为关键挑战。MAPS通过扩展四个主流智能体基准(GAIA、SWE-bench、MATH和Agent Security Benchmark)至十种语言,构建了包含8,855个任务的评估体系,填补了多语言智能体评估的空白,并为实现全球公平、可靠的智能体系统提供了标准化框架。
当前挑战
MAPS面临的挑战主要体现在两方面:领域问题方面,智能体系统在多语言环境下存在性能下降和安全风险加剧的问题,例如数学推理任务中非英语输入的准确率降低16%,安全评估中攻击成功率上升17%;构建过程方面,需克服跨语言语义保真度与结构一致性的平衡难题,例如代码片段与数学符号的翻译失真、低资源语言的语料稀缺性,以及混合机器翻译与LLM增强流程的质量控制。这些挑战凸显了多语言智能体在真实场景中部署的潜在风险与技术瓶颈。
常用场景
经典使用场景
MAPS数据集作为首个多语言智能体AI基准测试套件,广泛应用于评估基于大型语言模型(LLM)的智能体系统在跨语言环境下的性能与安全性。其经典使用场景包括多语言任务执行、代码生成、数学推理及安全漏洞检测,通过覆盖11种语言的805项任务,为研究者提供了系统分析智能体在非英语环境中的表现退化与安全风险的标准化工具。
解决学术问题
该数据集解决了智能体AI领域长期存在的单语言评估局限问题,揭示了多语言输入导致的性能下降与安全脆弱性之间的相关性。通过量化分析任务类型、语言结构及输入组成对智能体行为的影响,为开发语言感知的适应性算法提供了实证基础,推动了公平、可靠的全球性智能体系统研究。
实际应用
在实际应用中,MAPS被科技企业用于多语言智能体产品的预发布测试,例如跨境电子商务的自动客服系统、多语言代码协作平台的智能编程助手等。其安全评估模块尤其适用于金融、医疗等高风险领域,帮助识别本地化输入可能触发的代理工具误用或数据泄露漏洞,显著降低了全球化部署中的运营风险。
数据集最近研究
最新研究方向
随着基于大型语言模型(LLM)的智能代理系统在复杂任务中的广泛应用,多语言环境下的性能与安全性问题逐渐成为研究焦点。MAPS(多语言代理性能与安全基准)作为首个系统性评估多语言代理能力的基准套件,填补了现有研究空白。该数据集通过将GAIA(现实任务)、SWE-bench(代码生成)、MATH(数学推理)和Agent Security Benchmark(安全)四大基准扩展至10种语言,揭示了代理系统在非英语环境中的性能退化规律:语言依赖型任务(如现实问题解决)性能下降达16%,安全漏洞触发率提升17%,而结构化任务(如代码生成)受影响较小。这一发现推动了多语言对齐技术、输入敏感性分析和安全风险评估等方向的发展,为构建全球化可靠代理系统提供了实证基础。当前研究正围绕语言特定微调策略、跨语言知识迁移机制以及多模态输入下的鲁棒性增强等前沿课题展开深入探索。
相关研究论文
- 1MAPS: A Multilingual Benchmark for Global Agent Performance and Security富士通欧洲研究院 · 2025年
以上内容由遇见数据集搜集并总结生成



