arc-agi-1-gpt-oss-120b

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/lvogel123/arc-agi-1-gpt-oss-120b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：结果数据、样本数据和统计数据。结果数据包括日志路径、评估ID、运行ID、创建时间、任务、任务ID、模型、总样本数、完成样本数、准确度、标准误和标准差等信息。样本数据包括日志路径、评估ID、运行ID、创建时间、任务、任务ID、模型、样本ID、纪元、目标、消息、元训练数据、元测试数据、元文件名、元期望网格和评分等信息。统计数据包括日志路径、评估ID、运行ID、创建时间、任务、任务ID、模型、开始时间、结束时间、模型使用情况、输入标记数、输出标记数和总标记数等信息。数据集划分为训练集。

创建时间：

2025-10-25

原始信息汇总

数据集概述

基本信息

数据集名称: arc-agi-1-gpt-oss-120b
配置数量: 3个独立配置

配置详情

1. arc_agi_1_gpt_oss_120b_20251024-213916_results

特征字段:

log_path: 字符串
eval_id: 字符串
run_id: 字符串
created: 字符串
task: 字符串
task_id: 字符串
model: 字符串
total_samples: 整型
completed_samples: 整型
accuracy: 浮点型
stderr: 浮点型
std: 浮点型

数据统计:

训练集大小: 293字节
训练集样本数: 1
下载大小: 5862字节
数据集总大小: 293字节

2. arc_agi_1_gpt_oss_120b_20251024-213916_samples

特征字段:

log_path: 字符串
eval_id: 字符串
run_id: 字符串
created: 字符串
task: 字符串
task_id: 字符串
model: 字符串
sample_id: 字符串
epoch: 整型
target: 字符串
messages: 字符串
meta_train: 列表类型
- input: 序列的序列（整型）
- output: 序列的序列（整型）
meta_test: 列表类型
- input: 序列的序列（整型）
- output: 序列的序列（整型）
meta_filename: 字符串
meta_expected_grid: 序列的序列（整型）
score_arc_agi_scorer_value: 字符串
score_arc_agi_scorer_answer: 空值

数据统计:

训练集大小: 9970309字节
训练集样本数: 400
下载大小: 787712字节
数据集总大小: 9970309字节

3. arc_agi_1_gpt_oss_120b_20251024-213916_stats

特征字段:

log_path: 字符串
eval_id: 字符串
run_id: 字符串
created: 字符串
task: 字符串
task_id: 字符串
model: 字符串
started_at: 字符串
completed_at: 字符串
usage_model: 字符串
input_tokens: 整型
output_tokens: 整型
total_tokens: 整型

数据统计:

训练集大小: 363字节
训练集样本数: 1
下载大小: 6501字节
数据集总大小: 363字节

数据文件结构

所有配置均包含训练集分割，数据文件路径格式为：

arc_agi_1_gpt_oss_120b_20251024-213916_results/train-*
arc_agi_1_gpt_oss_120b_20251024-213916_samples/train-*
arc_agi_1_gpt_oss_120b_20251024-213916_stats/train-*

搜集汇总

数据集介绍

构建方式

在人工智能通用能力评估领域，arc-agi-1-gpt-oss-120b数据集通过系统化的评估框架构建而成。该数据集采用多配置结构设计，包含结果统计、样本数据和运行状态三个独立模块，每个模块均配备完整的元数据追踪体系。构建过程中运用了标准化的评估流程，通过统一的任务标识符和模型参数记录，确保了数据采集的系统性和可复现性。数据集以时间戳为版本标识，采用分片存储技术优化数据访问效率，为后续分析提供了可靠的基础架构支撑。

特点

该数据集展现出高度结构化的特征体系，其核心价值在于完整的评估轨迹记录能力。数据特征涵盖从基础的任务标识、模型信息到复杂的元数据结构，特别是对训练和测试阶段的输入输出序列进行了精细编码。样本数据模块包含400个实例，每个实例均配备多维评分指标和预期输出网格，为模型性能分析提供了丰富维度。数据集采用轻量化设计，在保证信息完整性的同时通过分块存储实现了高效的数据管理，展现出卓越的工程化设计理念。

使用方法

在具体应用层面，研究者可通过三个配置模块分别获取不同维度的评估信息。结果统计模块提供整体性能指标，包括准确率、标准误差等核心度量；样本数据模块呈现详细的测试实例及其评分结果；运行状态模块则记录资源消耗和时序信息。使用时可依据研究需求选择相应配置，通过标准化的数据加载接口获取结构化信息。这种模块化设计使得数据集既能支持宏观的性能对比分析，又能满足微观的案例研究需求，为人工智能模型评估提供了灵活的研究工具。

背景与挑战

背景概述

抽象推理能力作为衡量人工智能系统通用智能水平的核心指标，近年来受到学术界广泛关注。ARC-AGI-1-GPT-OSS-120B数据集应运而生，其构建基于2025年10月发布的评估框架，专门用于测试大规模语言模型在抽象推理任务中的表现。该数据集通过结构化评估任务，系统化地检验模型对隐含规律的归纳能力和跨领域知识迁移能力，为推进通用人工智能发展提供了重要基准。

当前挑战

在抽象推理领域，模型需要从有限示例中提取潜在规则并应用于新情境，这对现有神经网络架构构成显著挑战。数据集构建过程中面临多重困难：原始抽象推理任务本身具有高度复杂性，要求设计者精准定义评估维度；数据标注需保持逻辑一致性，避免引入人为偏差；大规模语言模型评估还需协调计算资源效率与评估深度之间的平衡。

常用场景

经典使用场景

在抽象推理能力评估领域，该数据集作为衡量人工智能系统泛化性能的基准工具，通过结构化任务测试模型对未见模式的归纳能力。其核心应用场景聚焦于评估大规模语言模型在抽象规则推理任务中的表现，为模型智能水平提供量化指标。

实际应用

在工业实践层面，该数据集被广泛应用于智能教育系统的认知诊断模块，通过分析学习者在抽象推理任务中的表现模式，为个性化教学路径规划提供数据支撑。同时也在人才评估系统中作为认知能力测量的重要工具，辅助企业进行人才筛选和岗位匹配。

衍生相关工作

基于该数据集衍生的研究推动了多模态推理框架的发展，催生了如神经符号混合系统等创新架构。相关工作进一步拓展到元学习领域，形成了基于任务嵌入的快速适应方法，为小样本学习提供了新的理论视角和实践方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集