3LM
收藏3LM Benchmark 数据集概述
数据集简介
3LM (علم) 是首个专注于科学推理和编程的阿拉伯语原生基准测试套件,包含三个子基准:
- Native STEM:865道来自阿拉伯语教育材料(生物、物理、化学、数学和地理)的多项选择题(MCQs)。
- Synthetic STEM:1,744道高难度多项选择题,使用YourBench流水线从阿拉伯语教育文本生成。
- Arabic Code Benchmarks:通过GPT-4o翻译并经过反向翻译和人工验证的HumanEval和MBPP数据集阿拉伯语版本。
关键结果
- Gemma-3-27B在STEM完成基准测试中表现最佳。
- Qwen2.5-72B在所有领域的MCQ评估中表现优异。
- 阿拉伯语代码生成性能与英语代码生成性能高度相关(r ≈ 0.97)。
- 指令调优模型在鲁棒性测试中表现优于基础模型。
使用方法
-
克隆仓库: bash git clone https://github.com/tiiuae/3LM-benchmark.git
-
设置环境: bash conda create -n 3lm_eval python==3.11 conda activate 3lm_eval pip install -e frameworks/lighteval pip install -e frameworks/evalplus-arabic
-
启动评估脚本: bash python launch_eval.py -c examples/lighteval_3lm.yaml python launch_eval.py -c examples/lighteval_native.yaml python launch_eval.py -c examples/lighteval_synthetic.yaml python launch_eval.py -c examples/evalplus_arabic_code.yaml
数据集下载
- SyntheticQA:https://huggingface.co/datasets/tiiuae/SyntheticQA
- NativeQA:https://huggingface.co/datasets/tiiuae/NativeQA
- NativeQA-RDP:https://huggingface.co/datasets/tiiuae/NativeQA-RDP
- Evalplus-Arabic:https://huggingface.co/datasets/tiiuae/evalplus-arabic
代码数据集
humaneval-ar.jsonmbpp-ar.json
许可证
引用
bibtex @article{boussaha2025threeLM, title={3LM: Bridging Arabic, STEM, and Code through Benchmarking}, author={Boussaha, Basma El Amel and AlQadi, Leen and Farooq, Mugariya and Alsuwaidi, Shaikha and Campesan, Giulia and Alzubaidi, Ahmed and Alyafeai, Mohammed and Hacid, Hakim}, journal={arXiv preprint arXiv:2507.15850}, year={2025} }



