Zeng-Weijun/aci-evolve-l1-labels-v2-public-5000

Name: Zeng-Weijun/aci-evolve-l1-labels-v2-public-5000
Creator: Zeng-Weijun
Published: 2026-04-25 14:23:19
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Zeng-Weijun/aci-evolve-l1-labels-v2-public-5000

下载链接

链接失效反馈

官方服务：

资源简介：

ACI-Evolve L1标签数据集（v2 PUBLIC，n=5000）是一个包含5000个ACI配置的L1-judge标签数据集，用于ACI-Evolve论文（NeurIPS 2026提交）。数据集中有4997个成功标签和3个临时API错误标签（使用score=0.5作为占位符）。标注模型为gpt-5.4-mini，通过公共端点http://8.130.49.170/v1进行中继。数据集遵循特定的过滤规则，即必须通过result.error is not None进行过滤，而不是通过result.score == 0.5。每条记录包含三个顶级键：index、config和result。数据集采用MIT许可证，与代码仓库一致。

The ACI-Evolve L1 Labels (v2 PUBLIC, n=5000) dataset contains canonical L1-judge labels for 5000 ACI configurations, used in the ACI-Evolve paper (NeurIPS 2026 submission). The dataset includes 4997 successful labels and 3 transient API errors (placeholder score=0.5). The judge model used is gpt-5.4-mini, relayed via the public endpoint http://8.130.49.170/v1. The dataset follows a critical filter rule: always filter on result.error is not None, never on result.score == 0.5. Each record is a JSON object with three top-level keys: index, config, and result. The dataset is licensed under MIT, matching the code repository.

提供机构：

Zeng-Weijun

搜集汇总

数据集介绍

构建方式

该数据集源自ACI-Evolve研究项目，专为NeurIPS 2026的投稿论文而构建。其核心在于对5000个ACI配置进行规范化的L1级裁判标注。构建过程采用gpt-5.4-mini作为裁判模型，通过公共中继端点（http://8.130.49.170/v1）进行推理，并应用了v2-rubric版本的提示词。整个数据集由原始运行和恢复运行的多个JSONL文件，经确定性合并脚本（merge_l1_v2_public.py）处理生成，最终确保SHA256哈希值精确一致。在5000条记录中，成功标注了4997条，仅有3条因临时API错误以占位分值0.5标记。

特点

数据集的一大特色在于其严格的质量控制与清晰的错误标识机制。尽管有71条记录的得分为0.5，但其中仅有3条源于实际错误，其余68条均为模型合理赋予的真实分值。因此，研究者必须依据result.error字段而非score字段进行数据过滤，以避免误删有效样本。此外，每条记录由index、config和result三个顶层键构成，结构清晰，且配套有完整的代码审查可重复性文档，极大提升了数据的可复现性与可靠性。数据集遵循MIT开源协议，便于广泛使用。

使用方法

使用该数据集时，用户应首先注意关键过滤规则：务必检查result.error字段是否非空来剔除异常记录，而非依赖score是否为0.5。每条数据均为JSON对象，可直接按index、config、result结构解析。config字段包含ACI配置详情，result字段携带裁判模型的评分与可能错误信息。为重现数据集，可访问源码仓库运行merge_l1_v2_public.py脚本，结合两个源JSONL文件即可精确复现。若需引用，请使用已提供的BibTeX条目。

背景与挑战

背景概述

在人工智能对齐评估领域，随着大语言模型（LLM）能力的飞速发展，如何系统性地评估和改进模型在交互式环境中的行为对齐性，已成为亟待攻克的核心难题。ACI-Evolve L1 Labels (v2 PUBLIC, n=5000) 数据集应运而生，由研究团队在2026年NeurIPS投稿论文《ACI-Evolve》中提出，旨在为5000个ACI（Agent-Configuration-Interaction）配置提供标准化的L1级评判标签。该数据集的主创人员来自Zeng-Weijun等研究者，依托公开的中继端点与GPT-5.4-mini评判模型，构建了一套可复现的标签体系。其核心研究问题聚焦于如何通过细粒度的配置标签，量化智能体在复杂任务中的行为表现，从而为对齐成本优化与演化式学习提供基准。作为ACI-Evolve项目的关键组件，该数据集在推动交互式AI对齐评估标准化方面具有开创性意义，为后续CCR（Codex-Reviewed Reproducibility）研究奠定了数据基础。

当前挑战

该数据集所应对的领域挑战在于，当前缺乏统一、可扩展的评判框架来评估LLM驱动的智能体在多样配置下的行为对齐性。传统的静态基准测试难以捕捉动态交互中的微妙偏差，而ACI-Evolve需精准区分合法标签与API瞬态错误，例如数据集中71条score=0.5的记录中仅3条为错误，其余均为模型合理赋分，这要求研究者设计出鲁棒的过滤规则（如基于result.error而非score）。构建过程中，研究者面临多批次运行结果的确定性合并难题，需通过严格脚本（如merge_l1_v2_public.py）保证可复现性；同时，依赖外部API（GPT-5.4-mini）带来的瞬态故障与标注一致性挑战，也促使团队采用错误标记占位符策略，并公开完整SHA256哈希值以确保数据完整性。此外，标注规模与技术成本的平衡，以及跨配置标签的语义泛化性，均为数据集构建中的核心障碍。

常用场景

经典使用场景

在人工智能对齐与评估研究领域，ACI-Evolve L1 Labels v2数据集作为一份精心构建的规范标签库，广泛应用于自动评估系统性能的基准测试。该数据集包含5000条ACI配置及其对应的L1层级裁判标签，由gpt-5.4-mini模型生成，并采用v2-rubric提示模板。研究者常利用这一数据集作为标准化的测试床，用于衡量大语言模型在复杂配置场景下的评判稳定性与准确性，特别是在神经信息处理系统（NeurIPS）等顶级学术会议提交的论文中，该数据集成为验证自动对齐评估方法有效性的核心工具。

实际应用

在工业级的语言模型部署与安全质检流程中，该数据集可充当自动红队测试的标准化校验集。企业级AI系统在迭代更新时，可利用此5000条配置标签高效检测新模型的对齐退化现象，尤其是对裁判模型（judge model）在边界案例上的评判质量进行回归测试。此外，公开的中继端点（relay endpoint）与MIT开源许可降低了应用门槛，使得中小型团队也能基于该数据集搭建可靠的对齐评估流水线，加速了从学术研究到生产环境的可信AI落地进程。

衍生相关工作

围绕ACI-Evolve L1 Labels数据集，学术界已衍生出一系列开创性工作。在评估协议层面，后续研究提出了基于v2-rubric的动态模板优化策略，提升了裁判模型对模糊配置的理解力。在数据增强维度，研究者通过迁移学习将5000条标签扩展至更多ACI变体，形成了多层次的对齐评估基准族。更重要的是，该数据集催生了关于API错误标注与模型不确定性分离的专门研究，推动了如错误感知（error-aware）评分聚合算法等新型方法论的出现，这些工作共同构成了当前AI对齐可复现性研究的核心脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集