AetherCode

Name: AetherCode
Creator: Multimodal Art Projection
Published: 2025-08-22 22:39:34
License: 暂无描述

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/m-a-p/AetherCode

下载链接

链接失效反馈

官方服务：

资源简介：

AetherCode是一个用于评估大型语言模型（LLM）推理和编码能力的基准数据集。该数据集从顶级编程竞赛中收集问题，确保了高难度和广泛的范围。数据集特征包括问题描述、时间限制、内存限制、检查器脚本和测试用例。数据集分为包含完整测试用例的公开集和用于公平评估的私有集。README还包含了使用Hugging Face库加载数据集的快速入门指南，各种LLM在数据集上的评估结果，以及从中提取问题的竞赛列表。该数据集在CC-BY-4.0许可下发布。

提供机构：

Multimodal Art Projection

创建时间：

2025-08-11

原始信息汇总

AetherCode 数据集概述

数据集简介

AetherCode 是一个用于评估大型语言模型（LLMs）在顶级编程竞赛中表现能力的基准数据集。该数据集通过收集来自国际顶级编程竞赛的题目，结合高质量的测试用例，旨在更准确地衡量LLMs的推理和编码能力。

数据集配置

数据集包含两个配置版本：

v1_2024：包含2024年1月至12月的400个样例，数据量20.19 GB
v1_2025：包含2025年1月至5月的56个样例，数据量201 KB

数据特征

每个数据样本包含以下特征字段：

id：整型标识符
description：字符串类型的问题描述
time_limit：整型时间限制
memory_limit：整型内存限制
checker：字符串类型的检查器信息
test_cases：测试用例列表（包含input和output字符串）
year：整型年份
date：字符串类型日期
difficulty：字符串类型难度等级
contest_category：字符串类型竞赛类别
contest_name：字符串类型竞赛名称

数据来源

数据集题目来源于以下顶级编程竞赛：

国际信息学奥林匹克竞赛（IOI）
国际大学生程序设计竞赛（ICPC）
各国信息学奥林匹克竞赛（OI）
美国计算机奥林匹克竞赛（USACO）
中国大学生程序设计竞赛（CCPC）
各地区域性编程竞赛

数据质量特点

问题经过人工校对和格式转换（PDF转Markdown+LaTeX）
测试用例采用自动生成与专家标注相结合的混合方法
通过大规模解决方案验证测试用例的正确性和全面性
实现零误报和零漏报的质量标准

评估结果

数据集提供了多个LLM模型的评估结果，包括：

按难度等级（简单、中等、困难、极端）的通过率
按年份（2024、2025）的通过率
不同采样次数（Pass@1、Pass@2、Pass@4）的通过率

使用方式

python from datasets import load_dataset

加载2024年数据

ds = load_dataset("m-a-p/AetherCode", "v1_2024")

加载2025年数据

ds = load_dataset("m-a-p/AetherCode", "v1_2025")

许可证

数据集采用CC-BY-4.0许可证发布

搜集汇总

数据集介绍

构建方式

在竞争性编程领域，AetherCode数据集的构建采用了系统化的方法，从国际顶级编程竞赛中精选问题，包括IOI和ICPC等权威赛事。通过全面收集原始问题材料，进行细致的清洗和格式转换，将PDF文档转化为结构化的Markdown与LaTeX混合格式。每个问题描述均经过人工校对确保准确性，并由资深竞赛专家团队标注分类标签，确保问题质量和难度层次的科学划分。

特点

AetherCode数据集的核心特征体现在其问题的高难度和广泛覆盖性上，专门设计用于挑战大型语言模型的编程与推理能力极限。数据集包含多个难度等级的问题，从简单到极端难度，全面评估模型在不同复杂度场景下的表现。每个问题配备专家验证的高质量测试用例，采用自动化生成与人工标注相结合的方式构建，确保零误报和零漏报的严格标准。数据集还提供详细的时间限制、内存限制和检查器信息，为模型评估提供完整的技术参数。

使用方法

研究人员可通过Hugging Face的datasets库直接加载AetherCode数据集的不同版本，使用load_dataset函数指定配置名称即可访问相应数据。数据集提供v1_2024和v1_2025两个配置版本，分别对应不同时间段的竞赛问题集合。每个样本包含完整的问题描述、测试用例、难度等级和竞赛元数据，支持模型生成代码的自动化评估。评估时可利用数据集提供的测试用例进行严格验证，确保模型输出符合竞赛级别的正确性标准。

背景与挑战

背景概述

编程竞赛已成为评估大型语言模型推理与编码能力的关键基准。AetherCode数据集由研究团队于2024年构建，首次系统性地整合了国际信息学奥林匹克竞赛（IOI）、国际大学生程序设计竞赛（ICPC）等顶级赛事的题目资源。该数据集旨在解决现有基准在题目难度覆盖范围和评估可靠性方面的不足，通过融合自动化生成与专家验证的双重机制，为代码推理研究提供了更严谨的评估框架，推动了智能编程系统的发展。

当前挑战

AetherCode致力于解决编程竞赛级别的高难度代码生成问题，其核心挑战在于模型需应对复杂算法设计、严格时空约束及多维度逻辑推理。构建过程中面临两大难题：一是从异构竞赛平台提取并标准化题目描述与测试用例，需克服原始数据格式差异及语义一致性维护问题；二是构建零误差的高质量测试套件，要求通过自动化生成与人工校验相结合的方式确保评估的全面性与准确性，避免因测试用例缺陷导致模型能力误判。

常用场景

经典使用场景

在编程竞赛与人工智能交叉研究领域，AetherCode数据集作为评估大型语言模型编程能力的基准工具，其经典应用场景集中于对模型算法推理与代码生成能力的系统性测试。该数据集汇集了来自IOI、ICPC等顶级竞赛的高难度题目，涵盖动态规划、图论、数据结构等核心算法类型，研究者通过模型在限定条件下的代码生成准确率与效率分析，深入探索神经网络在复杂逻辑推理任务中的表现边界。

衍生相关工作

基于AetherCode衍生的经典研究包括多模态代码理解框架、推理链增强生成方法以及测试用例覆盖度优化算法。部分工作专注于融合形式化验证技术提升生成代码的正确性保证，另有研究通过构建对抗性测试用例挖掘模型潜在缺陷。这些工作共同推动了代码生成模型在鲁棒性、可解释性及泛化能力方面的突破，形成了以竞赛级评测驱动技术演进的新范式。

数据集最近研究