arabic-agent-eval
收藏github2026-04-21 更新2026-04-22 收录
下载链接:
https://github.com/Moshe-ship/arabic-agent-eval
下载链接
链接失效反馈官方服务:
资源简介:
第一个阿拉伯语功能调用基准测试,包含51个评估项,涵盖MSA/海湾/黎凡特/埃及/马格里布方言。首次真实结果包:2026-04-20在OpenRouter上的7个模型。
The first Arabic function-calling benchmark contains 51 evaluation items covering Modern Standard Arabic (MSA), Gulf, Levantine, Egyptian, and Maghrebi dialects. Its inaugural real-world results package features 7 models evaluated on OpenRouter as of April 20, 2026.
创建时间:
2026-04-20
原始信息汇总
Arabic-Agent-Eval 数据集概述
数据集简介
Arabic-Agent-Eval 是首个阿拉伯语函数调用基准测试数据集,旨在评估模型处理阿拉伯语函数调用的能力。
核心特点
- 首创性:首个包含公开数据集、评分器和方言划分的阿拉伯语函数调用基准测试。
- 核心目标:解决前沿模型在处理阿拉伯语指令时出现的工具调用参数被音译、方言意图被忽略等问题,并提供一个可量化的评估标准。
数据集构成
- 评估项数量:51 个评估项目。
- 评估类别:6 个加权类别。
- 方言覆盖:包含 5 种阿拉伯语方言变体。
- 函数定义:包含 22 个阿拉伯语上下文函数。
- 难度级别:包含 3 个难度级别。
评估类别
| 类别 | 阿拉伯语名称 | 测试内容 |
|---|---|---|
| Simple Function Calling | استدعاء بسيط | 选择正确的函数,提取正确的参数 |
| Parameter Extraction | استخراج المعاملات | 从自然语言文本中提取阿拉伯语参数 |
| Multi-Step Reasoning | تفكير متعدد الخطوات | 按顺序链式调用多个函数 |
| Dialect Handling | معالجة اللهجات | 理解海湾、埃及、黎凡特、马格里布方言 |
| Tool Selection | اختيار الأداة | 从 10 个选项中选择正确的工具 |
| Error Recovery | معالجة الأخطاء | 正确处理阿拉伯语错误响应 |
方言覆盖
每个类别都包含方言变体:
| 方言 | 示例 |
|---|---|
| MSA (فصحى) | أريد حجز فندق في دبي غداً |
| Gulf (خليجي) | ابي أحجز فندق في دبي بكرة |
| Egyptian (مصري) | عايز أحجز فندق في دبي بكره |
| Levantine (شامي) | بدي احجز فندق بدبي بكرا |
| Maghrebi (مغاربي) | بغيت نحجز فندق في دبي غدا |
函数示例
22 个阿拉伯语上下文函数的部分示例:
| 函数 | 阿拉伯语 | 上下文 |
|---|---|---|
| search_flights | البحث عن رحلات | 区域航空公司 |
| get_prayer_times | مواقيت الصلاة | 伊斯兰日历 |
| calculate_zakat | حساب الزكاة | 伊斯兰金融 |
| find_quran_verse | البحث في القرآن | 古兰经搜索 |
| check_visa_status | حالة التأشيرة | 海湾合作委员会签证系统 |
| get_stock_price | سعر السهم | 沙特阿拉伯证券交易所、阿布扎比证券交易所、迪拜金融市场 |
| convert_currency | تحويل العملات | 沙特里亚尔、阿联酋迪拉姆、埃及镑、摩洛哥迪拉姆 |
| book_car | حجز سيارة | 区域网约车 |
| order_food | طلب طعام | 本地餐厅 |
| get_traffic | حالة المرور | 城市交通 |
评分维度
每个评估项目在 4 个维度上进行评分:
| 维度 | 衡量内容 |
|---|---|
| Function Selection | 模型是否选择了正确的函数? (0 或 1) |
| Argument Accuracy | 提取的参数是否正确? (0-1 标度) |
| Arabic Preservation | 阿拉伯语值是否被保留,而非音译? (0 或 1) |
| Dialect Understanding | 模型是否理解了方言? (仅限方言类别) |
| 总体分数 = 所有 6 个类别的加权平均值。 |
支持的服务提供商
| 提供商 | 默认模型 |
|---|---|
| OpenAI | gpt-4o |
| Anthropic | claude-sonnet-4-6 |
| gemini-2.0-flash | |
| DeepSeek | deepseek-chat |
| Groq | llama-3.3-70b-versatile |
| Mistral | mistral-large-latest |
| Qwen | qwen-plus |
| xAI | grok-2 |
| Cohere | command-r-plus |
| Together | Qwen2.5-72B |
| Fireworks | Qwen2.5-72B |
| OpenRouter | nousresearch/hermes-4-70b |
| Hermes (direct) | NousResearch/Hermes-4-70B |
许可证
- 代码:Apache-2.0 (https://github.com/Moshe-ship/arabic-agent-eval/blob/main/LICENSE)
- 数据:CC-BY-4.0 (https://github.com/Moshe-ship/arabic-agent-eval/blob/main/data/LICENSE)
搜集汇总
数据集介绍

构建方式
在阿拉伯语自然语言处理领域,评估模型在函数调用任务中的表现一直缺乏针对性的基准测试工具。arabic-agent-eval数据集的构建过程体现了系统化的设计理念,其核心在于创建涵盖多维度评估场景的标准化测试集。该数据集通过精心设计51个评估项目,覆盖了简单函数调用、参数提取、多步推理、方言处理、工具选择及错误恢复六大类别,并融入了现代标准阿拉伯语及海湾、埃及、黎凡特、马格里布四种方言变体。每个评估项目均与22个具有阿拉伯文化背景的预定义函数相关联,例如航班搜索、祈祷时间查询、天课计算等,确保了评估内容的文化相关性与实用性。数据集的构建严格遵循结构化规范,采用Python作为权威数据源,并支持导出为JSONL格式,保证了数据的一致性与可复现性。
特点
作为首个专注于阿拉伯语函数调用的公开基准测试集,arabic-agent-eval的突出特点在于其全面的方言覆盖与细致的评估维度。数据集不仅包含了现代标准阿拉伯语,还系统性地集成了四种主要阿拉伯语方言的变体,旨在检验模型对丰富语言变体的理解能力。其评估框架设计了四个核心评分维度:函数选择的准确性、参数提取的精确度、阿拉伯语值的完整性保持以及方言理解能力,从而能够对模型性能进行多角度、精细化的量化分析。此外,数据集提供了对十余种主流模型提供商的原生支持,并配备了完整的命令行工具与Python库接口,极大简化了评估流程。数据集遵循明确的开放许可协议,代码采用Apache-2.0许可,数据则采用CC-BY-4.0许可,促进了其在学术与工业界的广泛应用与协作。
使用方法
使用该数据集进行模型评估具有高度的灵活性与自动化特性。用户可通过简单的pip命令安装配套工具包,并利用命令行界面快速配置API密钥、执行针对单一或多家模型提供商的基准测试,以及进行模型间的对比分析。评估过程支持完整的自动化流水线,能够生成结构化的JSON输出,并可设定最低分数阈值以集成至持续集成系统。对于需要深度定制的场景,数据集提供了完整的Python库接口,允许用户通过实现自定义的模型调用函数,将评估框架无缝集成到现有的研究或开发工作流中。数据集还附带了详尽的文档,包括数据模式定义、评分算法详解以及与其他相关工作的对比分析,为使用者提供了全面的技术指导。
背景与挑战
背景概述
在自然语言处理领域,阿拉伯语作为全球重要语言之一,其复杂的方言变体与丰富的文化语境对智能体功能调用评估提出了独特要求。阿拉伯语智能体评估数据集(arabic-agent-eval)由沙特人工智能社区等机构的研究人员于近期创建,旨在填补阿拉伯语功能调用基准测试的空白。该数据集聚焦于评估大语言模型在阿拉伯语环境下的工具调用能力,核心研究问题涉及模型对阿拉伯语参数提取、方言理解及文化语境适配的准确性。通过涵盖海湾、埃及、黎凡特、马格里布及现代标准阿拉伯语五种方言变体,并整合伊斯兰金融、地区航班搜索等22项本土化功能,该数据集为提升阿拉伯语智能体的实用性与可靠性提供了关键评估框架,推动了多语言人工智能系统在特定文化语境中的发展。
当前挑战
阿拉伯语智能体评估数据集所针对的领域挑战在于,现有功能调用基准大多以英语为中心,缺乏对阿拉伯语复杂形态、方言多样性及文化特定性的系统评估,导致模型在处理阿拉伯语指令时易出现参数音译、方言意图忽略等问题。在构建过程中,挑战主要体现在数据收集与标注的复杂性上:需平衡五种方言变体的代表性,确保评估项目覆盖简单功能调用、多步推理、错误恢复等六个类别;同时,设计22项文化相关函数时,必须精确反映地区性需求,如伊斯兰教祈祷时间计算或海湾合作委员会签证查询,并建立兼顾函数选择、参数准确性、阿拉伯语保留及方言理解的四维评分体系,以保障评估的严谨性与全面性。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,评估智能体在函数调用任务中的性能一直缺乏标准化的基准测试工具。arabic-agent-eval数据集通过提供涵盖多种方言和复杂场景的评估项目,成为研究人员测试和比较不同大语言模型阿拉伯语函数调用能力的首选平台。其经典使用场景包括在学术实验中系统性地衡量模型在参数提取、多步推理及方言理解等方面的表现,为模型优化提供量化依据。
实际应用
在实际应用层面,arabic-agent-eval数据集被广泛集成到人工智能产品的开发流程中,用于优化面向阿拉伯语用户的智能助手和自动化服务。例如,在金融科技领域,基于该数据集测试的模型能够更准确地处理伊斯兰金融相关的函数调用;在旅游预订系统中,则能更好地理解各地方言表达的意图,从而提升用户体验和服务效率。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,例如mtg项目利用其作为诊断基底,扩展了多语言工具调用参数的形态学类型保护机制;ToolProof项目则专注于工具调用验证与签名收据生成,进一步提升了函数调用的可靠性。这些衍生工作共同推动了阿拉伯语智能体评估生态系统的完善与发展。
以上内容由遇见数据集搜集并总结生成



