Zeng-Weijun/aci-evolve-l1-labels-v2-public-5000
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Zeng-Weijun/aci-evolve-l1-labels-v2-public-5000
下载链接
链接失效反馈官方服务:
资源简介:
ACI-Evolve L1标签数据集(v2 PUBLIC,n=5000)是一个包含5000个ACI配置的L1-judge标签数据集,用于ACI-Evolve论文(NeurIPS 2026提交)。数据集中有4997个成功标签和3个临时API错误标签(使用score=0.5作为占位符)。标注模型为gpt-5.4-mini,通过公共端点http://8.130.49.170/v1进行中继。数据集遵循特定的过滤规则,即必须通过result.error is not None进行过滤,而不是通过result.score == 0.5。每条记录包含三个顶级键:index、config和result。数据集采用MIT许可证,与代码仓库一致。
The ACI-Evolve L1 Labels (v2 PUBLIC, n=5000) dataset contains canonical L1-judge labels for 5000 ACI configurations, used in the ACI-Evolve paper (NeurIPS 2026 submission). The dataset includes 4997 successful labels and 3 transient API errors (placeholder score=0.5). The judge model used is gpt-5.4-mini, relayed via the public endpoint http://8.130.49.170/v1. The dataset follows a critical filter rule: always filter on result.error is not None, never on result.score == 0.5. Each record is a JSON object with three top-level keys: index, config, and result. The dataset is licensed under MIT, matching the code repository.
提供机构:
Zeng-Weijun
搜集汇总
数据集介绍

构建方式
该数据集源自ACI-Evolve研究项目,专为NeurIPS 2026的投稿论文而构建。其核心在于对5000个ACI配置进行规范化的L1级裁判标注。构建过程采用gpt-5.4-mini作为裁判模型,通过公共中继端点(http://8.130.49.170/v1)进行推理,并应用了v2-rubric版本的提示词。整个数据集由原始运行和恢复运行的多个JSONL文件,经确定性合并脚本(merge_l1_v2_public.py)处理生成,最终确保SHA256哈希值精确一致。在5000条记录中,成功标注了4997条,仅有3条因临时API错误以占位分值0.5标记。
特点
数据集的一大特色在于其严格的质量控制与清晰的错误标识机制。尽管有71条记录的得分为0.5,但其中仅有3条源于实际错误,其余68条均为模型合理赋予的真实分值。因此,研究者必须依据result.error字段而非score字段进行数据过滤,以避免误删有效样本。此外,每条记录由index、config和result三个顶层键构成,结构清晰,且配套有完整的代码审查可重复性文档,极大提升了数据的可复现性与可靠性。数据集遵循MIT开源协议,便于广泛使用。
使用方法
使用该数据集时,用户应首先注意关键过滤规则:务必检查result.error字段是否非空来剔除异常记录,而非依赖score是否为0.5。每条数据均为JSON对象,可直接按index、config、result结构解析。config字段包含ACI配置详情,result字段携带裁判模型的评分与可能错误信息。为重现数据集,可访问源码仓库运行merge_l1_v2_public.py脚本,结合两个源JSONL文件即可精确复现。若需引用,请使用已提供的BibTeX条目。
背景与挑战
背景概述
在人工智能对齐评估领域,随着大语言模型(LLM)能力的飞速发展,如何系统性地评估和改进模型在交互式环境中的行为对齐性,已成为亟待攻克的核心难题。ACI-Evolve L1 Labels (v2 PUBLIC, n=5000) 数据集应运而生,由研究团队在2026年NeurIPS投稿论文《ACI-Evolve》中提出,旨在为5000个ACI(Agent-Configuration-Interaction)配置提供标准化的L1级评判标签。该数据集的主创人员来自Zeng-Weijun等研究者,依托公开的中继端点与GPT-5.4-mini评判模型,构建了一套可复现的标签体系。其核心研究问题聚焦于如何通过细粒度的配置标签,量化智能体在复杂任务中的行为表现,从而为对齐成本优化与演化式学习提供基准。作为ACI-Evolve项目的关键组件,该数据集在推动交互式AI对齐评估标准化方面具有开创性意义,为后续CCR(Codex-Reviewed Reproducibility)研究奠定了数据基础。
当前挑战
该数据集所应对的领域挑战在于,当前缺乏统一、可扩展的评判框架来评估LLM驱动的智能体在多样配置下的行为对齐性。传统的静态基准测试难以捕捉动态交互中的微妙偏差,而ACI-Evolve需精准区分合法标签与API瞬态错误,例如数据集中71条score=0.5的记录中仅3条为错误,其余均为模型合理赋分,这要求研究者设计出鲁棒的过滤规则(如基于result.error而非score)。构建过程中,研究者面临多批次运行结果的确定性合并难题,需通过严格脚本(如merge_l1_v2_public.py)保证可复现性;同时,依赖外部API(GPT-5.4-mini)带来的瞬态故障与标注一致性挑战,也促使团队采用错误标记占位符策略,并公开完整SHA256哈希值以确保数据完整性。此外,标注规模与技术成本的平衡,以及跨配置标签的语义泛化性,均为数据集构建中的核心障碍。
常用场景
经典使用场景
在人工智能对齐与评估研究领域,ACI-Evolve L1 Labels v2数据集作为一份精心构建的规范标签库,广泛应用于自动评估系统性能的基准测试。该数据集包含5000条ACI配置及其对应的L1层级裁判标签,由gpt-5.4-mini模型生成,并采用v2-rubric提示模板。研究者常利用这一数据集作为标准化的测试床,用于衡量大语言模型在复杂配置场景下的评判稳定性与准确性,特别是在神经信息处理系统(NeurIPS)等顶级学术会议提交的论文中,该数据集成为验证自动对齐评估方法有效性的核心工具。
实际应用
在工业级的语言模型部署与安全质检流程中,该数据集可充当自动红队测试的标准化校验集。企业级AI系统在迭代更新时,可利用此5000条配置标签高效检测新模型的对齐退化现象,尤其是对裁判模型(judge model)在边界案例上的评判质量进行回归测试。此外,公开的中继端点(relay endpoint)与MIT开源许可降低了应用门槛,使得中小型团队也能基于该数据集搭建可靠的对齐评估流水线,加速了从学术研究到生产环境的可信AI落地进程。
衍生相关工作
围绕ACI-Evolve L1 Labels数据集,学术界已衍生出一系列开创性工作。在评估协议层面,后续研究提出了基于v2-rubric的动态模板优化策略,提升了裁判模型对模糊配置的理解力。在数据增强维度,研究者通过迁移学习将5000条标签扩展至更多ACI变体,形成了多层次的对齐评估基准族。更重要的是,该数据集催生了关于API错误标注与模型不确定性分离的专门研究,推动了如错误感知(error-aware)评分聚合算法等新型方法论的出现,这些工作共同构成了当前AI对齐可复现性研究的核心脉络。
以上内容由遇见数据集搜集并总结生成



