AraTable
收藏arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://github.com/rana-alshaikh/AraTable-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
AraTable是一个专为评估大型语言模型(LLMs)在阿拉伯语表格数据上的推理和理解能力而设计的全新且全面的基准。该数据集包含各种评估任务,如直接问答、事实核查和复杂推理,涉及广泛的阿拉伯语表格来源。AraTable的数据收集过程包括从不同领域收集表格数据,包括维基百科、现实世界数据和通过LLMs生成的数据。数据集创建过程遵循混合流程,其中初始内容由LLMs生成,随后由人类专家过滤和验证,以确保数据集的高质量。AraTable旨在解决当前LLMs在处理阿拉伯语表格数据时的认知挑战,并促进阿拉伯语结构化数据处理和分析的基础模型的发展。
AraTable is a novel and comprehensive benchmark designed to evaluate the reasoning and comprehension capabilities of large language models (LLMs) on Arabic tabular data. This dataset covers various evaluation tasks including direct question answering, fact-checking and complex reasoning, involving a wide range of Arabic tabular data sources. The data collection process of AraTable gathers tabular data from diverse domains, such as Wikipedia, real-world datasets and data generated by LLMs. The dataset creation follows a hybrid workflow, where the initial content is generated by LLMs and then filtered and validated by human experts to ensure high data quality. AraTable aims to address the current cognitive challenges faced by LLMs when processing Arabic tabular data, and promote the development of foundation models for Arabic structured data processing and analysis.
提供机构:
沙特阿拉伯阿卜杜勒阿齐兹国王大学计算机与信息技术学院信息系统系, 沙特阿拉伯吉达大学计算机科学与工程学院信息系统与技术系, 英国西英格兰大学计算与创意技术学院
创建时间:
2025-07-24
搜集汇总
数据集介绍

构建方式
AraTable数据集的构建采用了混合流水线方法,首先由大型语言模型(LLMs)生成初始内容,随后由阿拉伯语专家进行人工筛选和验证,以确保数据集的高质量。数据来源包括阿拉伯语维基百科、真实世界数据(如Kaggle和政府开放数据平台)以及LLM生成的表格。每个表格经过标准化预处理,确保格式统一,并限制最大行数以适配模型输入限制。针对每张表格,通过提示方法生成三类问题:直接问答、推理问题和事实验证问题,每类问题生成10个初始问题,最终由人工筛选保留5个问题,确保问题的多样性和准确性。
特点
AraTable数据集的特点在于其全面性和多样性。它涵盖了多种阿拉伯语表格数据来源,包括维基百科、真实世界数据和LLM生成的数据,覆盖旅游、交通、体育、商业、政治等多个领域。数据集包含三类任务:直接问答、推理问题和事实验证,旨在全面评估模型对阿拉伯语表格数据的理解和推理能力。推理问题进一步细分为时间推理、数学推理、比较推理和逻辑推理,以测试模型在不同推理类型上的表现。数据集的构建过程严格,经过人工验证,确保了问题与表格内容的一致性和准确性。
使用方法
AraTable数据集的使用方法主要包括三个任务:直接问答、推理问题和事实验证。用户可以通过零样本或少样本学习的方式,评估模型在阿拉伯语表格数据上的表现。直接问答任务测试模型直接从表格中提取信息的能力;推理任务评估模型进行复杂逻辑推理的能力;事实验证任务则检验模型判断给定陈述是否符合表格内容的能力。数据集还提供了一个自动化评估框架,采用辅助自审议(ASD)机制,通过两个独立的LLM评估答案的正确性,并在意见不一致时进行重新审议,以提高评估的准确性和一致性。
背景与挑战
背景概述
AraTable是由Rana Alshaikh、Israa Alghanmi和Shelan Jeawak等研究人员于2025年提出的一个针对阿拉伯语表格数据的基准测试数据集。该数据集旨在评估大型语言模型(LLMs)在处理阿拉伯语表格数据时的推理和理解能力。AraTable的创建填补了阿拉伯语表格数据评估资源的空白,特别是在直接问答、事实验证和复杂推理任务方面。数据集包含来自维基百科、真实世界数据和LLM生成的表格,涵盖了旅游、交通、体育、商业、政治、教育等多个领域。AraTable的推出为阿拉伯语自然语言处理领域的研究提供了重要的资源和评估框架。
当前挑战
AraTable面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,AraTable旨在解决LLMs在处理阿拉伯语表格数据时的性能评估问题,特别是复杂推理和事实验证任务。阿拉伯语的丰富形态、多样方言和复杂语法增加了模型理解和推理的难度。在构建过程中,挑战包括数据来源的多样性处理、表格的标准化预处理、问答对的生成与验证,以及确保数据质量和代表性。此外,开发一个与人类判断高度一致的自动评估框架也是一项重要挑战。
常用场景
经典使用场景
AraTable数据集主要用于评估大型语言模型(LLMs)在处理阿拉伯语表格数据时的推理和理解能力。其经典使用场景包括直接问答、事实验证和复杂推理任务。这些任务涵盖了从简单信息提取到复杂逻辑推断的多个层次,为研究者提供了一个全面的评估平台。
解决学术问题
AraTable解决了阿拉伯语表格数据处理领域的几个关键学术问题。首先,它填补了阿拉伯语表格数据基准测试的空白,为研究者提供了一个标准化的评估工具。其次,它揭示了当前LLMs在处理阿拉伯语表格数据时的局限性,尤其是在复杂推理任务上的表现不佳。此外,该数据集还促进了自动评估方法的发展,如辅助自我审议(ASD)机制,为未来的研究提供了新的方向。
衍生相关工作
AraTable衍生了一系列相关研究,特别是在阿拉伯语自然语言处理(NLP)和表格数据理解领域。例如,基于AraTable的研究探索了LLMs在阿拉伯语表格数据上的微调策略,以及如何通过提示工程提升模型性能。此外,该数据集还启发了其他语言类似基准的构建,如针对中文和西班牙语表格数据的评估工具。
以上内容由遇见数据集搜集并总结生成



