AGC-Bench

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/agcbench-2026/AGC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AGC-Bench（人工通用创造力基准）是一个兼容HELM的评估套件，用于测量语言和视觉语言模型的创造能力。该数据集包含83个模型的排行榜、78个数据集（67个纯文本基准和11个多模态场景）的场景实现、评分代码、冻结发布数据和复现脚本。涵盖的领域包括头脑风暴、问题解决、STEM、叙事、比喻语言和幽默。数据集以多个CSV文件形式组织，包括排行榜、模型与数据集的长格式数据、人类数据上限等配置。适用于文本生成、问答、摘要等任务，并支持创造力评估、基准测试和心理测量学研究。数据集代码采用Apache 2.0许可证，数据采用CC BY 4.0许可证。

AGC-Bench (Artificial General Creativity Benchmark) is a HELM-compatible evaluation suite designed to measure the creative capabilities of language and vision-language models. The dataset includes leaderboards for 83 models, scenario implementations for 78 datasets (67 text-only benchmarks and 11 multimodal scenarios), scoring code, frozen release data, and reproduction scripts. It covers domains such as brainstorming, problem-solving, STEM, narrative, figurative language, and humor. The dataset is organized in multiple CSV files, including leaderboards, long-format data for models and datasets, and configurations for human data ceilings. It is suitable for tasks like text generation, question answering, and summarization, and supports creativity evaluation, benchmarking, and psychometric studies. The dataset code is licensed under Apache 2.0, and the data is licensed under CC BY 4.0.

创建时间：

2026-05-05

原始信息汇总

AGC-Bench 数据集概述

基本信息

数据集名称：AGC-Bench (Artificial General Creativity Benchmark)
许可证：代码采用 Apache License 2.0，数据采用 CC BY 4.0
语言：英语
数据集规模：1K < n < 10K
任务类别：文本生成、问答、摘要
标签：创造力、基准测试、评估、心理测量学、元基准、LLM-as-a-Judge、Judge Response Theory

数据集构成

AGC-Bench 是一个用于测量语言和视觉语言模型创造能力的评估套件，包含 78 个数据集：

67 个纯文本基准：用于主要分析
11 个多模态场景：作为工件发布

覆盖领域

头脑风暴
问题解决
STEM（科学、技术、工程、数学）
叙事能力
比喻语言
幽默

数据集配置

该数据集提供以下配置（均为 CSV 格式）：

配置名称	数据文件	用途
`leaderboard`	`leaderboard.csv`	排行榜数据
`long_model_x_dataset`	`long_model_x_dataset.csv`	模型×数据集长格式数据
`cap_human_data`	`cap_human_data.csv`	人类能力数据
`dataset_metadata`	`dataset_metadata.csv`	数据集元数据
`dataset_raw_distribution`	`dataset_raw_distribution.csv`	数据集原始分布
`agc_judge_per_item`	`agc_judge_per_item.csv`	逐项判断数据
`lsa_per_model`	`lsa_per_model.csv`	每模型潜在语义分析数据

评估框架

核心架构

每个数据集实现为 HELM Scenario 加 RunSpec：

Scenario 文件：位于 scenarios/ 目录，共 78 个
RunSpec 文件：位于 run_specs/ 目录，包含指标和标注器配置
评估脚本：位于 eval_scripts/ 目录

评分方法

43 个非 JRT 数据集：使用实现的规范指标（包括公式、嵌入和基于模型的指标）
24 个 JRT 校正数据集：通过 AGC-Judge（Qwen3-30B-A3B-Instruct-2507 LoRA 微调模型）进行 LLM 判断

嵌入指标

9 个指标依赖嵌入模型（如 sdat、conceptual_design、slang_generation、mops_diversity、semantic_diversity 等），默认使用 gemini-embedding-001，也可使用本地 Qwen3-Embedding-0.6B。

目录结构

路径	用途
`scenarios/`	每个数据集的 HELM Scenario（共 78 个）
`run_specs/`	每个数据集的 RunSpec（指标 + 标注器）
`eval_scripts/`	每个数据集的评估 shell 脚本
`scripts/`	分析管线，可重新生成所有论文工件
`release_data/`	冻结的每(模型, 数据集)评分、排行榜、人工复合数据
`analysis/`	JRT 校正监督、c-factor 载荷、AGC-Judge 保留预测
`data/registry/`	注册表文件（指标、推理配置）
`croissant/`	Croissant 1.0 清单
`audit/fidelity/`	每基准保真度审计报告（78 份）
`audit/dq_sweep/`	数据质量扫描
`audit/judge_prompts/`	LLM 判断提示词原文

复现与使用

论文结果复现（无需模型推理）

bash bash reproduce_paper_results.sh # 检查主要文本数值声明 bash reproduce_appendix.sh # 检查附录声明

新模型评分

使用 eval_scripts/run_with_agc_judge.sh 对新模型进行端到端评估：

bash bash eval_scripts/run_with_agc_judge.sh <model_identifier>

评分输出位于 analysis/scored/<model>/ 目录，包含：

leaderboard_line.json：排行榜条目
per_domain.csv：每个领域的平均 z 分数
per_dataset_z.csv：每个数据集的 z 标准化分数
missing.csv：HELM 未能生成统计的数据集列表

相关资源

AGC-Judge 模型：可在 https://huggingface.co/agcbench-2026/AGC-Judge 获取
AGC-Judge 训练数据：可在 https://huggingface.co/datasets/agcbench-2026/AGC-Judge-Training-Data 获取
排行榜：包含 83 个模型 的评估结果

搜集汇总

数据集介绍

构建方式

AGC-Bench（人工智能通用创造力基准测试）是一个与HELM兼容的评估套件，旨在衡量语言和视觉语言模型在创造力维度的能力。该数据集通过整合67个文本基准测试和11个多模态场景，覆盖头脑风暴、问题解决、STEM、叙事、比喻语言及幽默等多个创造领域，构建了包含83个模型的排行榜。每个数据集均实现为HELM框架下的Scenario和RunSpec，并附带详细的评分代码和冻结数据，确保评估的标准化和可复现性。

特点

AGC-Bench的显著特点在于其多维度的创造能力评估体系，通过78个数据集全面覆盖创造性思维的各个子域。该基准采用AGC-Judge（基于Qwen3-30B-A3B-2507的LoRA微调模型）作为24个LLM裁判基准的评估工具，结合JRT（裁判响应理论）校正技术，有效提升了评分的一致性和可靠性。此外，数据集提供了丰富的审计材料，包括78份忠实性审计报告和数据质量标记，确保了评估过程的透明度和可信度。

使用方法

用户可通过HuggingFace datasets库直接加载预配置的CSV文件，或使用HELM框架进行完整的模型评估。对于新模型评分，优先推荐运行eval_scripts/run_with_agc_judge.sh脚本，该脚本自动路由至AGC-Judge进行裁判评估。对于快速验证现有排行榜结果，可执行reproduce_paper_results.sh和reproduce_appendix.sh脚本，无需额外模型调用。高级用户还可通过00_run_all_parallel.sh并行执行器自定义评估参数，支持设置实例上限和并发数量以适应不同的计算资源条件。

背景与挑战

背景概述

AGC-Bench（Artificial General Creativity Benchmark）由斯坦福大学基础模型研究中心（CRFM）主导，于2025年发布，旨在系统评估语言与视觉-语言模型的创造性能力。该基准涵盖78个数据集，横跨头脑风暴、问题解决、STEM、叙事、比喻语言及幽默等六大领域，突破了传统基准仅关注知识记忆或逻辑推理的局限，为通用人工智能创造力评估提供了标准化框架。通过融合心理测量学中的项目反应理论与大语言模型作为裁判的评估范式，AGC-Bench引入了裁判响应理论（JRT）对主观评分进行校正，显著提升了创造力量化评估的可靠性。该基准已对83个主流模型进行评测，其发布标志着人工智能创造力评估从碎片化走向系统化的关键转折，对推动创造性AI系统的发展具有里程碑式意义。

当前挑战

AGC-Bench所解决的核心领域挑战在于创造力评估的主观性与多维度性，传统自动化指标难以捕捉发散性思维、原创性及语境适切性等创造性核心要素。构建过程中面临多重挑战：首先，需从零构建涵盖78个高质量数据集的评估体系，确保各领域任务的难度均衡与评分标准统一；其次，设计24个依赖大语言模型裁判的主观评分任务，并基于裁判响应理论对模型裁判的固有偏差进行校正，避免评分污染与误导；最后，基准框架需兼容文本与多模态任务，协调不同模态间评分体系的一致性，同时构建面向83个模型的标准化评测流程，平衡评测规模与计算资源约束。

常用场景

经典使用场景

AGC-Bench（Artificial General Creativity Benchmark）是一个专为衡量语言与视觉-语言模型创造能力而设计的标准化评估套件。其经典使用场景聚焦于对模型在头脑风暴、问题求解、STEM推理、叙事生成、比喻语言理解及幽默创作等多维创意领域的性能进行系统化评测。该基准包含78个数据集，其中67个文本基准用于主分析，11个多模态场景作为补充，覆盖创意认知的核心维度。研究者可通过HELM兼容的Scenario接口加载数据集，并使用内置的RunSpec与评分脚本复现论文中83个模型的排行榜。这一设计使得AGC-Bench成为评估通用人工智能创意能力的权威工具，为模型创造力的定量比较提供了统一的实验框架。

衍生相关工作

AGC-Bench的发布催生了一系列具有深远影响的衍生工作。首要的是AGC-Judge——一个专为创意评估优化的Qwen3-30B-A3B-Instruct-2507模型的LoRA微调版本，它作为JRT校正的评判者被集成到评估管道中，实现了高效且低偏差的自动评分。此外，研究社区基于AGC-Bench开发了多项分析工具，包括JRT校正监督模块、c因子载荷分析以及智力联合评估框架，这些工具共同构成了一个完整的创意评估生态。该基准还推动了对大模型创意能力维度的系统探索，衍生出多个聚焦幽默、叙事与STEM创造力的子任务专用数据集，为后续研究提供了丰富的实验素材与理论延伸。

数据集最近研究