OlympicArena

Name: OlympicArena
Creator: 上海交通大学
Published: 2024-06-19 00:20:53
License: 暂无描述

arXiv2024-06-19 更新2024-06-20 收录

下载链接：

https://gair-nlp.github.io/OlympicArena/

下载链接

链接失效反馈

官方服务：

资源简介：

OlympicArena是由上海交通大学和上海人工智能实验室联合创建的综合性数据集，包含11,163个跨学科问题，涵盖数学、物理、化学等七个领域，旨在评估和推动AI在复杂认知推理方面的能力。数据集支持中英文双语，包含文本和图文混合两种模式，通过精细化的评估机制，深入分析AI在不同学科和复杂任务中的表现，以期推动AI向超智能方向发展。

OlympicArena is a comprehensive dataset jointly created by Shanghai Jiao Tong University and Shanghai AI Laboratory. It encompasses 11,163 interdisciplinary questions across seven fields including mathematics, physics, chemistry and others, and is intended to evaluate and promote the complex cognitive reasoning capabilities of AI. The dataset supports both Chinese and English, and provides two modalities: text-only and text-image hybrid. With a refined evaluation framework, it performs in-depth analyses of AI's performance across diverse disciplines and complex tasks, with the ultimate goal of advancing AI towards superintelligence.

提供机构：

上海交通大学

创建时间：

2024-06-19

搜集汇总

数据集介绍

构建方式

OlympicArena数据集的构建基于62个国际奥林匹克竞赛的11,163个双语问题，涵盖数学、物理、化学、生物、地理、天文和计算机科学七个学科。数据收集过程包括从公开的竞赛PDF中提取问题，并通过Mathpix工具将其转换为Markdown格式。为确保数据的多样性和复杂性，数据集涵盖了13种不同的答案类型，并进行了严格的数据泄露检测。此外，数据集还支持文本和图像交错的多模态输入，以评估AI在处理复杂任务时的多模态推理能力。

使用方法

OlympicArena数据集的使用方法包括对模型进行文本和多模态输入的评估。用户可以通过数据集的开放源代码平台进行模型的自动提交和评估。评估分为答案级和过程级两个层次：答案级评估通过规则和模型结合的方式判断模型的最终答案是否正确；过程级评估则通过逐步分析模型的推理过程，评估其每一步的正确性。此外，数据集还提供了详细的评估工具和排行榜，支持研究人员进行多角度的分析和比较。

背景与挑战

背景概述

OlympicArena是由上海交通大学、上海人工智能实验室和生成式人工智能研究实验室（GAIR）的研究团队于2024年提出的一个多学科认知推理基准数据集。该数据集旨在评估当前大型语言模型（LLMs）和大型多模态模型（LMMs）在复杂认知推理任务中的表现。数据集包含11,163个双语问题，涵盖文本和文本-图像混合模态，涉及数学、物理、化学、生物、地理、天文和计算机科学等七个领域的62项国际奥林匹克竞赛题目。OlympicArena的创建标志着AI在科学发现和复杂问题解决领域的进一步探索，尤其是在多模态和跨学科推理能力的评估上，具有重要的研究意义。

当前挑战

OlympicArena面临的挑战主要体现在两个方面：首先，该数据集旨在解决复杂认知推理问题，尤其是跨学科和多模态推理任务，这对当前AI模型提出了极高的要求。尽管现有的LLMs和LMMs在知识密集型任务上表现良好，但在处理需要分解推理、空间推理和符号理解等复杂问题时，仍存在显著不足。其次，数据集的构建过程中也面临诸多挑战，包括从不同竞赛中收集和整理题目、确保数据的多样性和代表性、以及进行数据泄露检测等。此外，如何设计精细的评估机制，尤其是过程级推理评估，以全面衡量模型的推理能力，也是构建过程中的一大难点。

常用场景

经典使用场景

OlympicArena数据集主要用于评估大型语言模型（LLMs）和大型多模态模型（LMMs）在复杂认知推理任务中的表现。该数据集涵盖了数学、物理、化学、生物、地理、天文和计算机科学等七个学科，共计11,163个双语问题，涉及62个国际奥林匹克竞赛题目。通过这些问题，研究人员可以全面评估模型在跨学科、多模态任务中的推理能力，尤其是在需要复杂逻辑推理和视觉推理的场景下。

解决学术问题

OlympicArena数据集解决了当前AI模型在复杂认知推理任务中的评估难题。传统的基准测试大多侧重于知识密集型任务或单一模态的评估，而OlympicArena通过引入多模态问题和过程级评估机制，能够更全面地评估模型的推理能力。该数据集不仅关注答案的正确性，还深入分析模型的推理过程，帮助研究人员识别模型在复杂推理中的薄弱环节，从而推动AI在科学发现和工程应用中的进一步发展。

实际应用

OlympicArena数据集的实际应用场景广泛，尤其是在科学研究和工程领域。通过该数据集，研究人员可以评估AI模型在解决复杂科学问题中的表现，例如数学证明、物理实验设计、化学反应预测等。此外，该数据集还可用于开发更强大的AI助手，帮助科学家和工程师进行跨学科的研究和决策。通过提升AI在复杂推理任务中的表现，OlympicArena有望推动AI在科学发现、工程设计等领域的实际应用。

数据集最近研究