OlympiadBench
收藏arXiv2024-02-22 更新2024-06-21 收录
下载链接:
https://github.com/OpenBMB/OlympiadBench
下载链接
链接失效反馈官方服务:
资源简介:
OlympiadBench是一个高难度的双语多模态科学基准数据集,由清华大学计算机科学与技术系人工智能研究所创建。该数据集包含8952个来自国际奥林匹克竞赛、中国奥林匹克竞赛和中国高考的数学和物理问题。每个问题都配有专家级的逐步推理注释,旨在评估和推动大型模型在数学和物理推理方面的能力。数据集涵盖了广泛的难度和问题类型,适用于评估和提升模型在复杂科学问题解决方面的性能。
OlympiadBench is a high-difficulty bilingual multimodal scientific benchmark dataset created by the Institute of Artificial Intelligence, Department of Computer Science and Technology, Tsinghua University. This dataset contains 8,952 math and physics problems sourced from International Olympiads, Chinese Olympiads, and China's National College Entrance Examination (Gaokao). Each problem is accompanied by expert-level step-by-step reasoning annotations, aiming to evaluate and advance the capabilities of large models in mathematical and physical reasoning. The dataset covers a broad spectrum of difficulty levels and problem types, and is suitable for evaluating and enhancing the performance of models in solving complex scientific problems.
提供机构:
清华大学计算机科学与技术系人工智能研究所
创建时间:
2024-02-22
搜集汇总
数据集介绍

构建方式
在科学推理评估领域,面对现有基准对前沿大模型挑战性不足的现状,OlympiadBench的构建旨在填补高难度双语多模态科学基准的空白。该数据集从国际奥林匹克竞赛、中国国家级竞赛以及高考模拟题中精心筛选了8,952道数学与物理题目,涵盖了从入门到顶尖的全难度谱系。构建过程首先通过官方渠道获取PDF格式的原始题目,利用Mathpix工具进行光学字符识别与格式转换,随后经过人工校验确保文本与公式的准确性。团队进一步采用基于数学符号语料训练的小型语言模型进行向量化与去重处理,并手动为每道题目标注了学科子领域、问题类型及答案类型等元数据,最终形成了结构清晰、标注详尽的标准化数据集。
使用方法
作为评估大型语言模型与多模态模型科学推理能力的基准,OlympiadBench提供了标准化的使用流程。研究者可利用数据集提供的统一提示词模板,在零样本设置下对模型进行测试。评估流程涵盖模型答案生成与自动评分两个关键环节。针对答案类型多样的特点,数据集配套的自动化评分管道能够处理数值、表达式、方程、元组和区间等多种输出形式,通过符号计算与数值比对进行精确判定。对于定理证明等无法自动评分的复杂题型,则建议采用人工抽样检查的方式进行深入分析。该基准旨在为模型在高级科学问题解决能力上的横向对比与缺陷诊断提供可靠依据。
背景与挑战
背景概述
随着大型语言模型与多模态模型在通用任务上逐渐逼近人类专家水平,传统基准测试已难以有效评估其高级认知能力。为此,清华大学、北京航空航天大学及智慧之路人工智能实验室的研究团队于2024年联合推出了OlympiadBench——一个奥林匹克级别的双语多模态科学基准。该数据集汇集了来自国际奥林匹克竞赛及中国高考的8,952道数学与物理难题,每道题目均配有专家级逐步推理标注。其核心研究目标在于推动通用人工智能在复杂科学推理领域的发展,通过提供高难度、多模态且双语覆盖的评估环境,填补现有基准在挑战性与严谨性方面的空白,为模型在高级逻辑与跨模态理解能力的进步设立新的标杆。
当前挑战
OlympiadBench所应对的领域挑战在于评估模型在奥林匹克级别科学问题上的深度推理能力,这类问题通常融合了多步骤逻辑推演、符号运算与视觉信息解析,对现有模型的抽象思维与跨模态整合能力提出了极高要求。在构建过程中,研究团队面临多重挑战:一是数据采集与处理的复杂性,需从官方PDF源文件中通过OCR技术精确提取多语言、多格式的数学符号与图像信息,并进行人工校验与去重;二是标注工作的高专业性,每道题目需由领域专家进行逐步解法的精细标注,确保推理链条的准确性与完整性;三是评估设计的严谨性,需开发自动化评分流程以处理多样化的答案类型(如数值、表达式、元组等),同时避免因上下文依赖或渐进式问题结构导致的评估偏差。
常用场景
经典使用场景
在人工智能领域,尤其是大型语言模型与多模态模型的能力评估中,OlympiadBench作为一个奥林匹克级别的双语多模态科学基准,其经典使用场景在于系统性地检验模型在高级数学与物理问题上的推理能力。该数据集汇集了来自国际奥林匹克竞赛及中国高考的8952道难题,每道题均配有专家级的分步推理注释,为研究者提供了一个严谨的测试平台,用以衡量模型在复杂科学情境下的理解、计算与逻辑演绎水平。
解决学术问题
OlympiadBench有效应对了当前基准测试逐渐饱和的学术困境,为评估前沿模型的高级科学推理能力设立了新的高标准。它解决了传统文本基准在难度与模态上的局限,通过引入极具挑战性的奥林匹克级开放性问题与多模态内容,迫使模型展现更深层的知识整合与逻辑分析能力。该数据集的建立填补了高水平科学推理评估工具的空白,推动了人工智能在数学、物理等核心科学领域向专家级辅助工具发展的研究进程。
实际应用
在实际应用层面,OlympiadBench为模型开发与优化提供了关键的方向指引。教育科技领域可借助该基准开发能够辅导高阶科学课程或竞赛的智能系统;科研机构则能利用其评估模型在辅助科学发现与复杂问题解决方面的潜力。此外,该数据集的双语与多模态特性支持跨语言与跨文化场景下的模型能力比较,对推动全球化、包容性的人工智能教育工具与科研助手发展具有实质性意义。
数据集最近研究
最新研究方向
在人工智能迈向通用智能(AGI)的进程中,科学推理能力被视为关键里程碑。OlympiadBench作为一项奥林匹克级别的双语多模态科学基准,其前沿研究聚焦于推动大型语言模型(LLM)与大型多模态模型(LMM)在复杂数学与物理问题上的深度推理能力。当前研究热点围绕模型在跨模态理解、符号计算与逻辑演绎方面的瓶颈展开,例如针对物理渐进式问题中上下文依赖关系的建模,以及几何证明中视觉信息与自然语言推理的融合。该数据集的严格性凸显了现有模型在高级别科学问题上的表现差距,尤其揭示了幻觉、知识遗漏与逻辑谬误等核心挑战,为AGI在科学领域的评估与优化提供了关键坐标,激励着更鲁棒的多模态推理架构与训练范式的创新。
相关研究论文
- 1OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems清华大学计算机科学与技术系人工智能研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



