MAPS_Verified

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/Fujitsu-FRE/MAPS_Verified

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估不同语言下代理AI系统性能和安全的第一个多语言代理AI基准数据集。该数据集使系统性能分析能够在多语言条件下进行。数据集包含GAIA的550个实例、ASB的660个实例、MATH的737个实例和SWE的1100个实例。每个任务都翻译成了10种目标语言，共有大约3K个多语言任务。这个多语言基准数据集是由母语双语者手动验证和注释的。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在构建多语言智能体评估基准的过程中，该数据集采用了一种混合式翻译流程，将机器生成与人工验证有机结合。通过机器翻译系统实现大规模语言转换，随后由精通双语的本土人士进行语义保真度和格式准确性的精细校验。每个任务在十种语言中保持一致的表达意图，确保了跨语言评估的可靠性与可比性。这种严谨的构建方式为多语言智能体系统的性能分析提供了坚实的数据基础。

特点

该数据集作为首个多语言智能体人工智能基准，其显著特征在于覆盖数学推理、软件工程、网络工具使用及安全评估四大领域，并囊括十一种语言变体。数据集通过本土双语专家对语义充分性、语言流畅度及格式完整性进行多维度人工标注，形成了兼具广度与深度的评估体系。其多模态任务设计与语言多样性相结合的特性，为探究智能体在跨语言环境中的泛化能力与安全边界提供了独特的研究视角。

使用方法

研究人员可通过数据集预设的领域分类与语言标签实现精准筛选，分别对GAIA、MATH、SWE和ASB四个子集进行独立评估。使用过程中需加载JSON格式数据文件，依据任务需求选择特定语言版本开展实验。该设计支持对智能体架构的多语言鲁棒性分析、安全行为跨语言一致性检验等研究场景，为比较不同智能体系统在多元语言环境中的性能表现提供了标准化测评框架。

背景与挑战

背景概述

随着人工智能代理系统的快速发展，多语言环境下的性能评估成为关键研究课题。MAPS_Verified数据集作为首个多语言智能体基准测试平台，由国际研究团队于2025年提出，旨在系统评估智能体在数学推理、软件工程、网络安全等领域的跨语言表现。该数据集整合了GAIA、MATH、SWE-bench和ASB四大核心任务模块，涵盖11种语言共3000余项任务，通过双语母语者的专业标注确保了数据质量，为多语言智能体的鲁棒性研究提供了重要支撑。

当前挑战

在多语言智能体评估领域，核心挑战在于解决语义一致性保持与领域适应性平衡问题。数学推理任务需确保公式符号的跨语言无损转换，软件工程场景要求代码注释与问题描述的语义对齐，安全基准测试则面临对抗性提示的多语言泛化难题。数据集构建过程中，专业术语的精准翻译与语言特性适配构成主要障碍，特别是非拉丁语系的特殊符号处理与语境重构，需要结合机器翻译与人工校验的双重机制来保证任务意图的完整传递。

常用场景

经典使用场景

在智能代理系统评估领域，MAPS_Verified数据集通过整合数学推理、软件工程、安全基准等多领域任务，为研究者提供了跨语言环境下的标准化测试平台。该数据集支持对智能代理在十种语言中的工具调用、代码修复及数学问题解决能力进行系统性评测，尤其适用于比较不同架构代理在多元语言环境中的表现差异。

实际应用

在实际部署场景中，该数据集可助力开发多语言智能助手与全球化AI系统。企业能通过其安全基准检测跨国服务中的风险响应机制，教育科技领域则可依托数学与编程任务模块，构建适应不同语言群体的自适应学习系统，显著提升跨文化场景下的技术服务包容性。

衍生相关工作

基于该数据集衍生的研究已形成系列突破性成果，包括融合多模态输入的增强型代理架构、针对低资源语言的迁移学习策略，以及跨语言对抗训练框架。这些工作通过扩展基准任务的维度，持续推动着智能代理在复杂现实环境中的适应能力与安全边界研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集