AraSTEM
收藏arXiv2025-01-01 更新2025-01-07 收录
下载链接:
http://arxiv.org/abs/2501.00559v1
下载链接
链接失效反馈官方服务:
资源简介:
AraSTEM是一个专门用于评估大型语言模型在阿拉伯语STEM科目中知识掌握情况的数据集,由贝鲁特美国大学的研究团队创建。该数据集包含11637个多项选择题,涵盖数学、科学、物理、生物、化学、计算机科学和医学等多个学科,难度从小学到大学水平不等。数据集的创建过程包括网页抓取、手动提取和LLM提取,确保了数据的多样性和广泛性。AraSTEM旨在解决阿拉伯语STEM领域缺乏高质量评估基准的问题,为多语言模型的性能评估提供了重要参考。
AraSTEM is a dataset specifically developed to assess the knowledge proficiency of large language models (LLMs) in Arabic STEM disciplines, created by a research team at the American University of Beirut. This dataset contains 11,637 multiple-choice questions covering multiple disciplines including mathematics, science, physics, biology, chemistry, computer science, and medicine, with difficulty levels ranging from primary school to university. The dataset was developed through web scraping, manual extraction, and LLM-based extraction, ensuring the diversity and broad coverage of the data. AraSTEM aims to address the shortage of high-quality evaluation benchmarks in the Arabic STEM field, providing an important reference for the performance evaluation of multilingual models.
提供机构:
贝鲁特美国大学
创建时间:
2025-01-01
搜集汇总
数据集介绍

构建方式
AraSTEM数据集的构建过程涉及多源数据的整合与处理。首先,通过Python脚本从公开的MCQ网站(如beadaya.com和alloschool.com)抓取大量选择题,涵盖从小学到中学的数学和科学题目。其次,部分题目通过手动从参考书籍中提取,并将非选择题转换为选择题格式。此外,还利用ChatGPT 4从PDF文件中提取医学类题目,并通过人工校对确保数据准确性。最终,数据集包含11,637道选择题,涵盖数学、物理、化学、生物、信息技术、医学等多个STEM领域。
特点
AraSTEM数据集的特点在于其广泛的覆盖范围和多样化的题目类型。数据集包含从小学到大学不同难度级别的题目,涵盖数学、科学、物理、化学、生物、信息技术、医学等多个学科。题目形式多样,选项数量从2到4个不等,且部分题目包含图像和数学公式。此外,数据集的语义分布通过E5多语言嵌入模型进行可视化,展示了不同学科题目在语义空间中的聚类特征,进一步凸显了其多样性和挑战性。
使用方法
AraSTEM数据集主要用于评估大型语言模型(LLMs)在阿拉伯语STEM领域的知识和推理能力。用户可以通过Hugging Face平台访问该数据集,并使用零样本或少样本学习的方式对模型进行测试。实验表明,模型在回答这些题目时需要具备对阿拉伯语科学文本的深刻理解。通过设计特定的提示模板(如Chain-of-Thought提示),用户可以引导模型逐步分析题目并选择正确答案。此外,数据集还可用于研究模型在不同学科和难度级别上的表现差异,为多语言模型的本地化训练提供参考。
背景与挑战
背景概述
AraSTEM数据集由黎巴嫩美国大学的研究团队于2025年1月发布,旨在评估大型语言模型(LLMs)在阿拉伯语科学、技术、工程和数学(STEM)领域的知识掌握能力。该数据集包含11,637道多项选择题,涵盖从小学到大学不同难度的STEM主题。AraSTEM的推出填补了阿拉伯语语言模型评估领域的空白,尤其是在多语言模型日益普及的背景下,现有的评估基准大多以英语为中心,无法全面反映模型在阿拉伯语等非英语语言中的表现。AraSTEM的发布为研究人员提供了一个重要的工具,用于评估和改进阿拉伯语语言模型在复杂科学问题上的推理和知识获取能力。
当前挑战
AraSTEM数据集在构建和应用过程中面临多重挑战。首先,数据集的核心目标是评估语言模型在阿拉伯语STEM领域的知识掌握能力,这要求模型不仅具备语言理解能力,还需具备跨学科的科学推理能力。然而,现有的多语言模型在阿拉伯语科学文本上的表现普遍不佳,尤其是在高难度问题上,模型的准确率显著下降。其次,数据集的构建过程也面临挑战,包括从多个来源收集和整理数据、处理包含数学公式和图像的复杂问题,以及确保数据的可追溯性和质量。此外,数据集中包含的医学、药学等专业领域问题进一步增加了模型的难度,要求模型具备领域特定的知识。这些挑战凸显了开发更本地化的阿拉伯语语言模型的必要性。
常用场景
经典使用场景
AraSTEM数据集主要用于评估大型语言模型(LLMs)在阿拉伯语科学、技术、工程和数学(STEM)领域的知识掌握能力。该数据集包含从小学到大学水平的多个选择题,涵盖了数学、物理、化学、生物、计算机科学和医学等多个学科。通过零样本或少样本学习设置,研究人员可以利用AraSTEM来测试模型在阿拉伯语环境下的推理能力和知识获取能力。
解决学术问题
AraSTEM数据集解决了当前多语言语言模型在阿拉伯语STEM领域评估中的空白问题。传统的语言模型评估主要集中在英语环境,而AraSTEM通过提供阿拉伯语原生内容,填补了这一领域的空白。该数据集不仅帮助研究人员评估模型在阿拉伯语环境下的表现,还揭示了现有模型在阿拉伯语STEM知识上的不足,推动了更多本地化语言模型的开发。
衍生相关工作
AraSTEM数据集的推出催生了一系列相关研究工作,特别是在阿拉伯语语言模型的优化和评估方面。例如,基于AraSTEM的研究揭示了模型在阿拉伯语STEM知识上的不足,推动了更多本地化语言模型的开发。此外,该数据集还启发了其他多语言评估基准的创建,如阿拉伯语版本的MMLU(Multilingual Massive Multitask Language Understanding),进一步推动了多语言模型在非英语环境下的评估和发展。
以上内容由遇见数据集搜集并总结生成



