five

3LM

收藏
arXiv2025-07-23 更新2025-07-23 收录
下载链接:
https://github.com/tiiuae/3LM-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
3LM数据集是一套针对阿拉伯语的STEM领域和代码生成而设计的评估基准,旨在填补阿拉伯语大型语言模型在科学和编程领域评估工具的空白。该数据集包含三个部分:STEM相关的问答对、合成的STEM问题和代码生成问题。数据集内容来源于阿拉伯语教科书、教育练习册和在线教育平台,并经过严格的机器翻译和人机协作验证流程,确保了数据的高质量和真实性。3LM数据集旨在支持阿拉伯语大型语言模型在这些重要但代表性不足的领域的研发,为评估模型在正式知识领域的性能提供了一个更加全面和稳健的框架。

The 3LM Dataset is an evaluation benchmark designed for Arabic STEM domains and code generation, which aims to fill the gap in evaluation tools for Arabic large language models (LLMs) in the fields of science and programming. This dataset comprises three components: STEM-related question-answer pairs, synthesized STEM questions, and code generation questions. The content of the dataset is sourced from Arabic textbooks, educational workbooks, and online education platforms, and has undergone rigorous machine translation and human-machine collaborative verification procedures to ensure its high quality and authenticity. The 3LM Dataset aims to support the research and development of Arabic large language models in these important yet underrepresented fields, and provides a more comprehensive and robust framework for evaluating model performance in formal knowledge domains.
提供机构:
技术创新研究所,阿布扎比,阿联酋
创建时间:
2025-07-22
原始信息汇总

3LM Benchmark 数据集概述

数据集简介

3LM (علم) 是首个专注于科学推理和编程的阿拉伯语原生基准测试套件,包含三个子基准:

  1. Native STEM:865道来自阿拉伯语教育材料(生物、物理、化学、数学和地理)的多项选择题(MCQs)。
  2. Synthetic STEM:1,744道高难度多项选择题,使用YourBench流水线从阿拉伯语教育文本生成。
  3. Arabic Code Benchmarks:通过GPT-4o翻译并经过反向翻译和人工验证的HumanEval和MBPP数据集阿拉伯语版本。

关键结果

  • Gemma-3-27B在STEM完成基准测试中表现最佳。
  • Qwen2.5-72B在所有领域的MCQ评估中表现优异。
  • 阿拉伯语代码生成性能与英语代码生成性能高度相关(r ≈ 0.97)。
  • 指令调优模型在鲁棒性测试中表现优于基础模型。

使用方法

  1. 克隆仓库: bash git clone https://github.com/tiiuae/3LM-benchmark.git

  2. 设置环境: bash conda create -n 3lm_eval python==3.11 conda activate 3lm_eval pip install -e frameworks/lighteval pip install -e frameworks/evalplus-arabic

  3. 启动评估脚本: bash python launch_eval.py -c examples/lighteval_3lm.yaml python launch_eval.py -c examples/lighteval_native.yaml python launch_eval.py -c examples/lighteval_synthetic.yaml python launch_eval.py -c examples/evalplus_arabic_code.yaml

数据集下载

  • SyntheticQA:https://huggingface.co/datasets/tiiuae/SyntheticQA
  • NativeQA:https://huggingface.co/datasets/tiiuae/NativeQA
  • NativeQA-RDP:https://huggingface.co/datasets/tiiuae/NativeQA-RDP
  • Evalplus-Arabic:https://huggingface.co/datasets/tiiuae/evalplus-arabic

代码数据集

  • humaneval-ar.json
  • mbpp-ar.json

许可证

Falcon LLM Licence

引用

bibtex @article{boussaha2025threeLM, title={3LM: Bridging Arabic, STEM, and Code through Benchmarking}, author={Boussaha, Basma El Amel and AlQadi, Leen and Farooq, Mugariya and Alsuwaidi, Shaikha and Campesan, Giulia and Alzubaidi, Ahmed and Alyafeai, Mohammed and Hacid, Hakim}, journal={arXiv preprint arXiv:2507.15850}, year={2025} }

搜集汇总
数据集介绍
构建方式
3LM数据集的构建采用了多源融合与严格验证的方法论。针对STEM部分,研究团队从阿拉伯语教材和在线教育平台系统采集了1,081页原生内容,通过Math-based OCR双阶段处理技术(常规OCR与Pix2Tex数学公式识别)实现文本数字化。代码基准则采用GPT-4o机器翻译结合人工回译验证的混合策略,对HumanEval+和MBPP+进行阿拉伯语本地化,设置ROUGE-L F1≥0.85的质量阈值并辅以编程专家的人工校验。合成问题通过YourBench框架生成,采用五阶段LLM处理流程(文档摘要-语义分块-多跳问题生成-难度标注-多样性分析),最终形成包含865原生问题、1,744合成问题和542编程任务的综合评估体系。
特点
该数据集具有鲜明的领域专属性与质量优势。作为首个覆盖阿拉伯语STEM与编程的基准测试,其原生问题源自中东多国的真实教育素材,涵盖生物、化学、物理等学科,难度呈正态分布。合成问题通过嵌入相似度控制实现高多样性,65%属于需要跨文档推理的应用型和分析型题目。编程部分保留EvalPlus的增强测试套件,HumanEval-Ar平均每个任务包含748个测试用例(基础版9.6个)。特别设计的干扰项扰动测试(RDP)通过五种阿拉伯语等效表达变体,有效区分模型的深层理解与模式匹配能力。
使用方法
使用3LM需区分不同评估模式:STEM部分支持选择题(基于阿拉伯选项字符似然度)和生成式(答案文本联合似然度)双轨评估,推荐使用lighteval框架。代码测试采用pass@1指标,通过evalplus执行严格单元测试。对于干扰项鲁棒性分析,可从NativeQA-RDP子集获取25%含'无正确答案'选项的扰动数据。研究者应注意混合语言特性——编程任务描述为阿拉伯语而变量名保留英文,STEM部分则完全阿拉伯语化。所有资源可通过HuggingFace分模块获取(NativeQA/SyntheticQA/evalplus-arabic),配套提供完整复现代码与跨任务相关性分析工具。
背景与挑战
背景概述
3LM数据集由阿布扎比技术研究院(Technology Innovation Institute, TII)的研究团队于2025年推出,旨在填补阿拉伯语大语言模型(LLM)在STEM(科学、技术、工程、数学)和编程领域评估的空白。该数据集包含三个核心组成部分:源自阿拉伯语教材的自然STEM问答对、基于相同资源合成的STEM问题,以及通过严格人工校验流程翻译的代码生成任务。作为首个专注于阿拉伯语科学及技术领域原生内容的基准测试,3LM推动了阿拉伯语LLM在知识密集型任务中的评估标准化,并为多语言模型在非拉丁语系代码生成能力的研究提供了关键工具。
当前挑战
3LM面临的挑战主要体现在两方面:领域问题方面,需解决阿拉伯语LLM在STEM和编程任务中缺乏高质量评估基准的问题,尤其是处理复杂科学符号、跨学科知识融合及代码混合语言场景的能力;构建过程方面,需克服阿拉伯语教育资源数字化程度低、数学公式OCR识别误差率高、合成问题生成中的文化适应性偏差,以及代码翻译中技术术语与自然语言语义对齐等难题。此外,保持翻译后代码功能等价性验证和跨学科问题难度校准也构成显著挑战。
常用场景
经典使用场景
3LM数据集作为阿拉伯语大语言模型(LLM)评估的核心工具,其经典使用场景聚焦于STEM学科(科学、技术、工程、数学)与代码生成能力的系统性评测。该数据集通过原生阿拉伯语教育材料构建的865道多选题、1,744道合成生成题及542道代码提示,为研究者提供了多维度评估框架。在模型能力分析中,研究者常采用零样本评估范式,通过对比模型在选择题(MCQ)与开放式补全(Completion)两种答题模式下的表现差异,揭示模型对阿拉伯语科学概念的深层理解能力与表面模式匹配倾向。例如,Qwen2.5-72B模型在MCQ格式中展现94.45%的准确率,显著高于补全模式的62.31%,这种差距成为分析模型认知深度的关键指标。
解决学术问题
3LM有效解决了阿拉伯语NLP领域长期存在的两大核心问题:其一,填补了阿拉伯语LLM在STEM领域评估的空白,通过原生教材提取与合成问题生成的双重方法论,突破了传统阿拉伯语基准多局限于文化、宗教内容的局限;其二,建立了首个阿拉伯语代码生成评估体系,通过HumanEval/MBPP的严谨翻译与人类循环验证,解决了双语编程模型能力评估依赖英语基准的困境。该数据集通过难度分级(1-10级)与题型分类(概念性/应用性/分析性),首次实现了阿拉伯语模型科学推理能力的细粒度量化,如在RDP(干扰项扰动)测试中,模型对「以上皆非」类干扰项的识别准确率下降幅度(如Gemma3-27B下降12.7%)成为衡量其元认知能力的重要指标。
衍生相关工作
3LM的发布催生了多个延伸研究:在基准扩展方面,AraSTEM-MCQ通过增加大学级STEM题目将评估范围延伸至高等教育阶段;JAIS-Coder项目基于其代码翻译框架开发了阿拉伯语Jupyter Notebook专项测试集。在方法论层面,TII研究所提出的「干扰项对抗训练」利用3LM-RDP子集提升模型鲁棒性,使Llama3-70B在含干扰项题目上的准确率提升18.2%。值得关注的是,该数据集还启发了跨模态研究,如KAUST团队正在开发的「3LM-Vision」将文本问题与阿拉伯语科学图表关联,以解决原数据集未涵盖视觉推理的局限。这些衍生工作共同推动了阿拉伯语AI在科学认知维度的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作