ATLAS

github2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/open-compass/ATLAS

下载链接

链接失效反馈

官方服务：

资源简介：

ATLAS是一个高难度、多学科的基准测试，旨在评估大型语言模型的前沿科学推理能力。它包含800多个原创高质量问题，涵盖数学、物理、化学、生物、计算机科学、地球科学和材料科学等7个核心科学领域，由25+领先机构的博士级专家贡献，具有高保真答案和防污染特性。

ATLAS is a high-difficulty, multi-disciplinary benchmark designed to evaluate the cutting-edge scientific reasoning capabilities of large language models (LLMs). It includes over 800 original, high-quality questions spanning seven core scientific disciplines: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. These questions are contributed by doctoral-level experts from more than 25 leading institutions, and the benchmark features high-fidelity answers and contamination-resistant properties.

创建时间：

2025-10-31

原始信息汇总

ATLAS 数据集概述

基本信息

数据集名称: ATLAS (AGI-Oriented Testbed for Logical Application in Science)
许可证: CC BY-NC-SA 4.0
访问地址: https://huggingface.co/datasets/opencompass/ATLAS
论文地址: https://arxiv.org/abs/2511.14366

核心特征

问题数量: 800+ 原创高质量问题
学科领域: 数学、物理、化学、生物、计算机科学、地球科学、材料科学等7个核心科学领域
贡献机构: 25+ 领先机构，由顶尖大学和研究机构的博士级专家贡献
答案质量: 高保真答案，包含多步推理和LaTeX表达式
防污染设计: 通过多轮专家同行评审和对抗性测试进行严格质量控制

数据集结构

数据字段

subject_name: 学科名称（英文）
question: 科学问题/问题陈述
answer_ideas: 解决问题的推理思路和方法
refined_standard_answer: 标准答案列表（可能包含多个子答案）
sub_subject_name: 具体子学科

数据划分

划分	数量	用途
验证集	~300	公开评估，可复现结果
测试集	~500	隐藏评估，防污染

评估协议

评估框架

评估方法: LLM-as-Judge 评估框架
默认评估模型: OpenAI-o4-mini
可定制性: 支持使用自定义评估模型

评估流程

模型推理：生成结构化JSON格式的答案
答案提取：从模型输出中解析最终答案
LLM评判：比较候选答案与标准答案
评分计算：计算准确率和pass@k指标

评估指标

平均准确率: 所有问题的平均正确率
mG-Pass@2: 使用2个样本的多数投票准确率
mG-Pass@4: 使用4个样本的多数投票准确率

性能表现

排行榜亮点（使用OpenAI-o4-mini评估）

排名	模型	机构	平均准确率
1	OpenAI GPT-5-High	OpenAI	42.9%
2	Gemini-2.5-Pro	Google	35.3%
3	Grok-4	xAI	34.1%
4	OpenAI o3-High	OpenAI	33.8%
5	DeepSeek-R1-0528	DeepSeek AI	26.4%

快速开始

安装

bash pip install opencompass

加载数据集

python from datasets import load_dataset dataset = load_dataset("opencompass/ATLAS")

测试集提交

完整测试集提交地址：https://huggingface.co/spaces/opencompass/ATLAS

搜集汇总

数据集介绍

构建方式

在科学推理评估领域，ATLAS数据集通过多学科专家协作构建而成，涵盖数学、物理、化学等七大核心科学领域。该数据集包含800余道原创高质量题目，所有问题均由来自25所顶尖科研机构的博士级专家团队精心设计或深度改编，有效规避了数据污染风险。构建过程中采用多轮专家同行评审与对抗性测试机制，确保每个问题均具备科学严谨性与逻辑复杂性，其标准答案融合了多步骤推理过程与LaTeX数学表达式，为前沿科学推理能力评估树立了新的标杆。

特点

作为面向通用人工智能的高难度基准测试，ATLAS展现出鲜明的技术特征。其题目设计突破传统评估框架的局限性，覆盖从分子生物学到量子力学的多层次科学认知维度。数据集采用严格的污染防护机制，所有题目均经过对抗性测试验证，有效防止模型通过记忆偏差获得虚高评分。特别值得关注的是，该数据集提供的参考答案具有高度保真性，不仅包含完整的推理链条，还融入了专业领域的数学符号表达，为衡量模型真实科学推理能力提供了精准标尺。

使用方法

研究人员可通过Hugging Face平台直接加载ATLAS数据集，利用OpenCompass评估框架进行系统化测试。评估流程采用LLM-as-Judge的创新范式，支持用户自定义评判模型配置。在具体操作中，模型需按照预设的JSON格式输出结构化答案，系统将自动解析并比对标准答案。对于测试集评估，需特别注意使用推理模式运行，而验证集则支持完整的评估流程。该设计既保证了评估结果的可靠性，又为不同研究需求提供了灵活适配的解决方案。

背景与挑战

背景概述

在人工智能迈向通用智能的关键阶段，现有基准测试的性能逐渐饱和，难以有效评估模型的前沿科学推理能力。ATLAS基准由来自25所顶尖科研机构的博士级专家团队于2025年共同创建，聚焦数学、物理、化学等七大核心科学领域，通过800余道原创高质量题目构建起跨学科评估体系。该数据集通过严谨的多轮专家评审机制，为大型语言模型的科学推理能力提供了可靠的衡量标尺，显著推进了人工智能在复杂科学问题解决方面的研究进程。

当前挑战

该数据集致力于解决跨学科科学推理这一核心难题，其挑战体现在模型需要融合多领域知识进行复杂逻辑推演，当前最优模型的平均准确率仍低于43%。在构建过程中，研究团队面临高质量题目设计的专业壁垒，需确保800余道原创题目既具备科学严谨性又避免数据污染。同时，开放式答案的评估体系要求建立精准的LLM-as-Judge机制，而多步骤推理与LaTeX表达的结合进一步增加了自动化评估的复杂度。

常用场景

经典使用场景

在人工智能研究领域，ATLAS数据集作为一项高难度多学科基准测试，主要用于评估大型语言模型在科学推理方面的前沿能力。该数据集通过涵盖数学、物理、化学、生物学等七大核心科学领域的原创问题，为研究者提供了检验模型复杂逻辑推理与跨学科知识整合能力的标准化平台。当前最先进的模型在该数据集上的表现仍显不足，这使其成为衡量人工智能向通用智能迈进的重要标尺。

实际应用

该数据集在科研教育领域具有重要应用价值，可作为智能教学系统的核心评估工具，帮助开发能够进行专业科学辅导的人工智能助手。在学术研究机构中，ATLAS为评估科研辅助模型的性能提供了标准化框架，助力构建具备前沿科学问题解决能力的智能系统。同时，该数据集也为企业研发部门测试专业领域大模型提供了权威基准，推动人工智能在科技创新中的实际落地。

衍生相关工作

基于ATLAS数据集的研究已催生多项重要工作，包括开发新型的LLM-as-Judge评估框架和多步骤推理验证方法。该数据集启发了针对科学领域专业问题的模型微调策略研究，并促进了跨学科知识融合的神经网络架构探索。众多研究团队利用该基准开展模型对比分析，推动了科学推理专用模型的创新发展，为构建下一代科学人工智能系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集