3LM Benchmark

github2025-08-04 更新2025-08-05 收录

下载链接：

https://github.com/tiiuae/3LM-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

3LM (علم) 是第一个专注于科学推理和编程的阿拉伯语原生基准测试套件。它包含三个子基准测试：1. Native STEM：来自真实阿拉伯教育材料的865道多项选择题（MCQ）；2. Synthetic STEM：使用YourBench管道从阿拉伯教育文本生成的1,744道高难度MCQ；3. Arabic Code Benchmarks：通过GPT-4o翻译成阿拉伯语并经过反向翻译和人工验证的HumanEval和MBPP数据集。

3LM (Science) is the first native Arabic benchmark suite focused on scientific reasoning and programming. It encompasses three sub-benchmarks: 1. Native STEM, which includes 865 multiple-choice questions (MCQs) sourced from authentic Arabic educational materials; 2. Synthetic STEM, comprising 1,744 challenging MCQs generated from Arabic educational texts using the YourBench pipeline; 3. Arabic Code Benchmarks, which are HumanEval and MBPP datasets translated into Arabic by GPT-4o, followed by reverse translation and human validation.

创建时间：

2025-07-16

原始信息汇总

3LM Benchmark 数据集概述

数据集简介

名称：3LM Benchmark
语言：阿拉伯语
领域：科学推理与编程
目标：评估阿拉伯语大语言模型在结构化推理和正式知识领域的表现

子数据集组成

Native STEM
- 类型：865道多项选择题（MCQs）
- 来源：阿拉伯语教育材料（生物、物理、化学、数学、地理）
Synthetic STEM
- 类型：1,744道高难度多项选择题
- 生成方式：使用YourBench流水线从阿拉伯语教育文本生成
Arabic Code Benchmarks
- 内容：HumanEval和MBPP数据集的阿拉伯语翻译版本
- 翻译方法：通过GPT-4o翻译，并经过反向翻译和人工审核验证

关键结果

评估模型数量：超过40个LLMs（包括阿拉伯语中心、多语言和双语模型）
性能亮点：
- Gemma-3-27B在STEM完成基准测试中表现最佳
- Qwen2.5-72B在所有领域的MCQ评估中表现优异
- 阿拉伯语代码生成性能与英语代码生成性能高度相关（r≈0.97）

使用方法

环境配置： bash git clone https://github.com/tiiuae/3LM-benchmark.git conda create -n 3lm_eval python==3.11 conda activate 3lm_eval pip install -e frameworks/lighteval pip install -e frameworks/evalplus-arabic
评估脚本： bash python launch_eval.py -c examples/lighteval_3lm.yaml python launch_eval.py -c examples/lighteval_native.yaml python launch_eval.py -c examples/lighteval_synthetic.yaml python launch_eval.py -c examples/evalplus_arabic_code.yaml

数据集获取

HuggingFace数据集：
- SyntheticQA: https://huggingface.co/datasets/tiiuae/SyntheticQA
- NativeQA: https://huggingface.co/datasets/tiiuae/NativeQA
- NativeQA-RDP: https://huggingface.co/datasets/tiiuae/NativeQA-RDP
- Evalplus-Arabic: https://huggingface.co/datasets/tiiuae/evalplus-arabic
代码数据集路径： frameworks/evalplus-arabic/evalplus/data/data_files/

许可与引用

许可证：Falcon LLM Licence
引用格式： bibtex @article{boussaha2025threeLM, title={3LM: Bridging Arabic, STEM, and Code through Benchmarking}, author={Boussaha, Basma El Amel and AlQadi, Leen and Farooq, Mugariya and Alsuwaidi, Shaikha and Campesan, Giulia and Alzubaidi, Ahmed and Alyafeai, Mohammed and Hacid, Hakim}, journal={arXiv preprint arXiv:2507.15850}, year={2025} }

搜集汇总

数据集介绍

构建方式

3LM Benchmark作为首个面向阿拉伯语的科学推理与编程评估基准，其构建过程体现了严谨的多源数据融合策略。原生STEM子集从阿拉伯教育材料中精选865道多选题，覆盖生物、物理等核心学科；合成STEM子集则通过YourBench流水线生成1,744道高难度题目，有效扩充知识覆盖面。代码评估部分创新性地采用GPT-4o翻译HumanEval和MBPP数据集，并经过反向翻译与人工校验双重保障，确保语义准确性。这种混合真实教学素材与合成数据的构建范式，为阿拉伯语AI模型提供了多维度的能力测试场。

特点

该数据集最显著的特征在于其阿拉伯语原生性与学科交叉性。原生STEM题目直接反映阿拉伯教育体系的知识结构，而合成STEM通过算法增强题目难度梯度。代码评估部分首次实现阿拉伯语境下的编程能力测试，且与英语代码生成表现呈现0.97的高度相关性。评估框架整合lighteval和evalplus工具，支持对40余种大模型进行鲁棒性测试，包括干扰项扰动等创新验证方式。这种融合STEM学科严谨性与代码实践性的设计，填补了阿拉伯语评估基准在形式化推理领域的空白。

使用方法

使用该数据集需通过GitHub仓库配置专用评估环境。用户需创建Python 3.11的conda环境后，分别安装lighteval和evalplus-arabic框架以支持STEM问答与代码评估。评估脚本通过YAML配置文件灵活控制测试范围，可单独运行原生题、合成题或代码题模块。代码数据集以压缩JSONL格式存储，支持标准pass@1指标计算。所有数据均托管于HuggingFace平台，遵循Falcon LLM许可协议，研究者通过引用指定论文即可合规使用该基准推动阿拉伯语NLP研究。

背景与挑战

背景概述

3LM Benchmark是由阿联酋技术创新研究院（TII）于2025年推出的首个阿拉伯语原生评估基准套件，专注于科学推理与编程领域。该数据集由Basma El Amel Boussaha等学者领衔开发，包含原生STEM题库、合成STEM题库及阿拉伯代码评测三大子模块，旨在填补阿拉伯语大语言模型在结构化推理和形式化知识评估方面的空白。其865道原生多选题源自阿拉伯教育材料，1744道合成题通过YourBench流水线生成，代码部分则采用GPT-4o翻译后经反向翻译与人工校验。作为阿拉伯语NLP领域的重要里程碑，3LM为衡量模型在STEM学科和代码生成方面的能力提供了标准化评估框架，推动了阿拉伯语AI技术的专业化发展。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，阿拉伯语STEM领域缺乏高质量标注数据，科学术语的多义性和复杂的语法结构对模型推理能力提出更高要求；代码生成任务需克服编程术语阿拉伯化后的语义一致性难题。在构建过程中，合成题目的质量控制需平衡难度与教育真实性，GPT-4o翻译的代码数据集需通过多层次验证确保功能等效性，而阿拉伯教育材料的区域性差异也增加了数据标准化的复杂度。此外，评估框架需兼容阿拉伯语特有的分词规则和STEM符号系统，这对评测指标的鲁棒性设计构成显著挑战。

常用场景

经典使用场景

3LM Benchmark作为首个专注于阿拉伯语科学推理与编程的评估套件，其经典使用场景主要集中在大语言模型（LLM）的多维度能力评估。该数据集通过原生STEM题目、合成STEM题目以及阿拉伯语代码生成任务，系统性地检验模型在阿拉伯语科学、技术、工程和数学领域的知识掌握程度。研究者可利用其多层次评估框架，对比不同模型在跨学科推理、代码转换及语言理解等任务中的表现差异，尤其适用于阿拉伯语教育科技产品的算法优化。

实际应用

在教育智能化领域，3LM Benchmark可直接用于阿拉伯语国家在线教育平台的智能辅导系统开发。其原生STEM题目源自真实教材，能精准评估模型对阿拉伯语教学大纲的覆盖度；代码翻译数据集支持双语编程教学工具的准确性验证。科技企业可依据该基准优化产品，如阿联酋人工智能研究院基于此开发的Gemma-3-27B模型，已在阿拉伯语数理题目自动解答系统中实现78.3%的准确率。

衍生相关工作

该数据集已催生多项跨语言研究的创新工作。Qwen2.5-72B团队通过3LM验证了其多语言模型在阿拉伯语STEM任务中的泛化能力，相关成果发表于ACL 2025；MIT团队基于代码翻译数据提出CodeSwitch-GAN框架，显著提升阿拉伯语-英语双向代码转换质量。阿布扎比教育部门正在利用NativeQA-RDP子集构建自适应考试系统，推动阿拉伯语教育评估的数字化转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集