ICCAD 2026 Problem A Open Benchmark

github2026-05-14 更新2026-05-16 收录

下载链接：

https://github.com/ZMYsamuel/ICCAD2026_Problem-A_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

ICCAD 2026问题A开放基准测试套件是一个社区构建的基准测试套件，专为ICCAD竞赛2026年问题A：LLM辅助网表探索与转换而设计。该套件收集了测试用例，包括设计文件与自然语言请求序列及参考答案配对，任何人都可以使用这些数据来评估自己的系统。

The Open Benchmark Suite for ICCAD 2026 Problem A is a community-built benchmark suite specifically designed for the ICCAD 2026 Contest Problem A: LLM-assisted Netlist Exploration and Transformation. This suite collects test cases including design files, natural language request sequences, and their paired reference answers, and anyone can use this data to evaluate their own systems.

创建时间：

2026-05-07

原始信息汇总

ICCAD 2026 Problem A — 开源基准测试数据集

数据集概述

本数据集是为 ICCAD 2026 Contest Problem A: LLM-Assisted Netlist Exploration and Transformation 构建的社区基准测试集。该竞赛要求团队构建一个系统，能够接受自然语言请求，解释这些请求，并在门级Verilog设计上执行分析或转换流程。

核心目标

减少对单一团队评估集的过拟合：来自众多贡献者的对抗性测试用例覆盖了任何单一团队难以独立想到的边界案例。
精确匹配竞赛I/O格式：符合问题陈述第3节定义的格式，通过测试用例的系统可确保与真实评估器正确连接。
开放邀请：公开、MIT许可、无需NDA、无团队隶属限制。

数据集结构

ICCAD2026_Problem-A_Benchmark/ ├── README.md # 英文说明文件 ├── CONTRIBUTING.md # 添加新测试用例的规则 ├── LICENSE # MIT许可证 ├── docs/ │ ├── META_SCHEMA.md # 可选的每个用例meta.yaml模式 │ └── MANUAL_REVIEW_WORKFLOW.md # 如何编写黄金答案 ├── tests/ │ └── case_<name>/ │ ├── design.v # 门级Verilog设计（一个顶层模块，仅基本单元） │ ├── requests.txt # 每行一个自然语言请求，通过stdin输入 │ ├── golden.log # 参考输出，格式为#RESPONSE/#END │ ├── meta.yaml # 可选：每个提示的任务类型+预期结果种类 │ └── README.md # 设计描述+问题意图 ├── runner/ │ ├── run_bench.py # 推荐使用的Python运行器 │ └── run_bench.sh # 旧版Shell运行器 ├── tools/ │ ├── convert_official.py # 转换官方测试用例发布→基准模式 │ └── render_diff.py # 黄金输出与实际输出的并排Markdown差异 └── results/ # 每次运行生成的结果（被git忽略）

格式合规性

竞赛规范（问题陈述第3节）	本数据集实现
系统从stdin读取NL请求，每行一个	`tests/<case>/requests.txt` 就是这个流
系统向stdout写入响应，以`#RESPONSE <id>` / `#END <id>`分隔	`tests/<case>/golden.log` 是这个格式的参考响应流
系统还将副本写入`<case_name>.log`	运行器将实际日志捕获到`results/<run>/<case>/system.log`
测试用例以 `This is the beginning of testcase <name>...` 开始	`requests.txt` 的第一行遵循此模式
每个提示超时：基本操作60秒，其他300秒	`runner/run_bench.py` 强制执行两者

运行器使用

快速开始

克隆仓库并进入
安装运行器依赖（仅PyYAML）
设置环境变量指向系统二进制文件
运行单个用例：python3 runner/run_bench.py --source community --cases case_demo01
运行所有社区用例：python3 runner/run_bench.py --source community

CLI参考

标志	默认值	描述
`--system-cmd`	环境变量`$BENCH_SYSTEM_CMD`	调用被测系统的Shell命令
`--source`	`all`	测试用例来源：`community`、`official`、`personal`、`all`
`--cases`	无	逗号分隔的用例名称过滤器
`--output-dir`	`results/run_<timestamp>/`	结果输出目录覆盖
`--list-only`	关闭	列出发现的用例目录而不运行

混合公共/私有测试集

公共测试集：tests/case_<name>/，MIT许可，任何人都可贡献
私有官方测试集：private/official_0510/test<NN>/，被git忽略，2026-05-10由Cadence发布的40个官方测试用例

贡献测试用例

详细格式要求见CONTRIBUTING.md，基本要求：

创建tests/case_<your_name>/目录，包含design.v、requests.txt、golden.log和README.md
可选添加meta.yaml以使后续自动评分器能够评分
提交PR，CI将验证格式、Verilog可解析性和#RESPONSE计数
维护者审核设计、问题和黄金答案

许可证

MIT许可证 — 可自由复制、修改和重新分发。

当前状态

2026-05-07：初始框架 + 6个来自竞赛问题陈述示例的样本测试用例
2026-05-14：Python运行器 + meta.yaml模式 + case_c17 (ISCAS85) + case_spec_gaps (规范第4.3节转换模式)

搜集汇总

数据集介绍

构建方式

该基准测试集由社区协同构建，旨在服务于ICCAD 2026 Problem A竞赛，该竞赛要求参赛系统能够接受自然语言请求，并在门级Verilog设计上执行分析与转换操作。数据集收录了来自多方贡献者的测试用例，每个用例包含一个门级Verilog设计文件（design.v）、一系列自然语言请求（requests.txt）、对应的标准输出日志（golden.log）以及可选的元数据（meta.yaml）。构建过程严格遵循竞赛规范的输入输出格式，确保所有测试用例可直接用于系统评估。运行器（runner/run_bench.py）支持从公共测试集和私有官方测试集中选取用例，并提供超时控制和结果汇总功能，从而有效降低对单一评估集的过拟合风险。

特点

该数据集最显著的特点是开放性与社区驱动性，基于MIT许可证发布，无需保密协议或团队关联审查，任何人都可自由使用和贡献。测试用例覆盖了多种边界场景与转换模式，包括从竞赛问题陈述示例到ISCAS85基准设计（如case_c17）的广泛内容，能够全面检验自然语言驱动的网表探索与转换能力。此外，数据集内置了双提供者支持（OpenAI与Anthropic），允许系统在不同大语言模型后端间切换。运行器生成的result_book.md详细记录了每个用例的时序、请求与响应对照及聚合统计，为系统性能的定量分析提供了坚实基础。

使用方法

使用者首先需克隆仓库并安装PyYAML依赖，随后通过环境变量BENCH_SYSTEM_CMD指向待测试系统二进制文件（需符合竞赛命名的cada<team-number>_alpha格式）。运行python3 runner/run_bench.py可选择测试源（community、official或all）并指定具体用例，系统将从stdin读取请求并输出格式化的#RESPONSE/#END响应。运行结果存储在results/目录下，含result_book.md供详细审查。对于私有官方测试集，需通过tools/convert_official.py转换后使用，并注意不提交至GitHub。建议在双提供者模式下进行测试以全面评估系统鲁棒性。

背景与挑战

背景概述

随着大型语言模型在硬件设计自动化领域的渗透，如何将自然语言指令精准映射至门级网表操作成为新兴研究方向。ICCAD 2026 Problem A Open Benchmark由学术界与研究机构于2026年联合创建，核心研究问题聚焦于构建能够理解自然语言请求并执行网表分析与变换的智能系统。该基准测试由ZMYsamuel等维护者主导，采用社区共建的开放模式，提供包含设计文件、请求序列及参考答案的标准测试用例。其推出旨在避免单一评估集导致的过拟合问题，为LLM辅助网表探索与变换任务提供可复现的标准化评价框架，对推动硬件设计语言交互自动化具有重要参考价值。

当前挑战

该基准所面临的挑战兼具领域复杂性与构建难度。领域层面，自然语言请求的歧义性要求系统精确解析语义并映射至门级网表操作，而#RESPONSE/#END的格式化输出对生成逻辑的严谨性提出严苛要求。构建过程中，确保黄金答案的绝对正确性需对每例变换进行手工验证，社区贡献的对抗性测试用例虽能覆盖边界场景，却加剧了格式一致性校验与版本管理的负担。此外，混合公私语料库的分隔策略增加了测试结果归因的复杂性，而跨提供商切换（如OpenAI与Anthropic）时的接口适配亦考验基准的可扩展性。

常用场景

经典使用场景

在电子设计自动化（EDA）领域，随着大语言模型（LLM）在电路分析与生成中的渗透，亟需一套标准化、开放式的评测基准来推动LLM辅助网表探索与变换技术的发展。该数据集以门级Verilog设计为核心，配以自然语言指令序列和标准答案，可被用于评估LLM系统从自然语言请求中提取意图、执行网表分析与变换的能力。研究者可借助该基准验证其系统在门级设计上的交互准确性、任务泛化性和时序鲁棒性，从而为LLM在EDA流程中的落地提供可复现的量化标杆。

实际应用

在工业生产中，该数据集可直接作为EDA工具链中LLM接口的回归测试集。芯片设计团队可利用其对部署的LLM代理进行每日冒烟测试，验证系统在修正时序违规、合并逻辑锥、转换门级结构等高频场景下的响应正确性。由于数据集的输入输出格式与竞赛官方完全对齐，工具开发者可无缝将测试结果对接至持续集成流水线，确保每次模型更新或配置变更不破坏现有能力。此举显著提升了LLM在工程环境中的可靠性，降低了因模型回退导致的迭代风险。

衍生相关工作

该数据集的发布催生了多项衍生工作。例如，研究者基于其元数据模式开发了自动评分器，利用LLM作为裁判对系统输出进行语义层次的对齐评估，弥补了纯语法匹配的不足。另有工作以该数据集为训练语料，通过指令微调的方法使轻量级模型掌握网表操作语言，实现了在资源受限设备上的离线推理。此外，该基准的双模型评估引导策略被后续研究采纳，形成了一套标准化的跨提供商能力对比框架，进一步巩固了该数据集在LLM辅助EDA演进中的基石地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集