SmoothE Benchmark Dataset

github2025-12-09 更新2025-12-10 收录

下载链接：

https://github.com/cornell-zhang/SmoothE

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含一个广泛的基准测试数据集，用于测试。数据集包括多个基准测试，如rover/box、rover/fir、rover/mcm、flexc、tensat、diospyros、impress、set等，每个基准测试都有实例数量、E节点数量和E类数量的统计信息。

This repository contains a comprehensive benchmark dataset for testing purposes. The dataset comprises multiple benchmarks such as rover/box, rover/fir, rover/mcm, flexc, tensat, diospyros, impress, set, and others. Each benchmark is accompanied by statistical information covering the number of instances, the number of E-nodes, and the number of E-classes.

创建时间：

2025-11-22

原始信息汇总

SmoothE 数据集概述

数据集基本信息

数据集名称: SmoothE 基准测试数据集
数据集用途: 用于测试 SmoothE（一种基于概率视角处理复杂成本模型的可微分 e-graph 提取方法）的性能。
数据集来源: 本数据集是 SmoothE 代码仓库的一部分，包含多个来自不同研究领域的基准测试问题实例。

数据集构成与统计

数据集由多个独立的基准测试集合组成，每个集合包含若干实例，并统计了 e-节点和 e-类的数量。具体构成如下：

基准测试名称	实例数量	E-节点数量	E-类数量
rover/box	3	12,537	2,852
rover/fir	4	13,037	1,604
rover/mcm	2	16,960	2,694
flexc	14	19,830	4,892
tensat	5	57,800	34,800
diospyros	10	15,384	1,671
impress	3	102,030	90,312
set	4	996,738	104,632
maxsat	6	3,851	3,781
herbie	18	51,525	9,274
circuits	28	109,885	47,817
esyn	14	32,022	15,102
emorphic	9	190,310	146,160
boole/mapped	4	303,327	154,812
boole/nonmapped	6	416,269	163,586

数据集来源说明

各基准测试数据来源于已发表的学术论文或预印本：

rover/box, rover/fir, rover/mcm: 来源于 https://ieeexplore.ieee.org/abstract/document/10579443/
flexc: 来源于 https://arxiv.org/abs/2309.091121
tensat: 来源于 https://proceedings.mlsys.org/paper_files/paper/2021/hash/cc427d934a7f6c0663e5923f49eba531-Abstract.html
diospyros: 来源于 https://dl.acm.org/doi/abs/10.1145/3445814.3446707
impress: 来源于 https://ieeexplore.ieee.org/abstract/document/9786123
set, maxsat: 来源于 https://dl.acm.org/doi/10.1145/3669940.3707262
herbie: 来源于 https://dl.acm.org/doi/10.1145/2737924.2737959
circuits: 来源于 https://ieeexplore.ieee.org/document/11168886
esyn: 来源于 https://dl.acm.org/doi/abs/10.1145/3649329.3656246
emorphic: 来源于 https://arxiv.org/abs/2504.11574
boole/mapped, boole/nonmapped: 来源于 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11132728

数据集获取与使用

获取方式: 数据集随 SmoothE 代码仓库（https://github.com/cornell-zhang/smoothe.git）一同提供。
使用方式: 可通过仓库中的启动脚本 script/solve_benchmark.py 运行基准测试。例如：python script/solve_benchmark.py dataset/tensat --time_limit 60。
结果输出: 运行结果将自动保存至 logs/ 目录下的 JSON 文件中。
完整数据集: 由于 GitHub 文件大小限制，本仓库仅包含 boole 基准测试的子集。完整数据集可从其 Hugging Face 页面下载。

性能对比

使用本优化后的 SmoothE 实现，在所述基准测试上达到了最先进的性能。与使用整数线性规划的最先进提取方法 e-boost 相比，SmoothE 表现相当甚至更优。例如，在 boole 和 e-morphic 基准测试上，在相同的每实例60秒时间限制下，SmoothE 在几何平均成本降低方面分别优于使用 CPLEX 的 e-boost 7.8% 和 1.7%。

搜集汇总

数据集介绍

构建方式

在程序优化与形式化验证领域，SmoothE Benchmark Dataset的构建整合了来自多个前沿研究项目的真实世界计算图实例。该数据集通过系统性地收集与整理已发表学术工作中公开的e-graph数据，涵盖了从电路设计、数值精度优化到布尔逻辑综合等广泛的应用场景。每个子数据集均源自相应的学术论文，确保了数据来源的权威性与代表性，并通过统一的格式进行规范化处理，形成了包含实例数量、e节点数与e类数等关键统计信息的结构化基准测试集。

特点

该数据集的核心特征在于其规模宏大且多样性丰富，总计包含超过百万个e节点，覆盖了十五个具有不同结构与复杂度特征的子基准测试。例如，set基准测试拥有近百万e节点，而tensat基准测试则以其高e类占比著称。数据集不仅提供了原始的图结构数据，还包含了每个实例的优化目标成本模型，为评估提取算法的综合性能提供了多维度的真实测试环境。这种广泛覆盖与细粒度标注使得该数据集能够全面检验算法在不同应用场景下的鲁棒性与有效性。

使用方法

研究人员可通过克隆项目仓库并配置指定的Conda环境来使用该数据集。利用项目提供的自动化启动脚本，用户能够便捷地对整个数据集或特定子集进行基准测试。脚本支持设置单实例运行时间上限等参数，并自动执行超参数调优。运行后，算法在数据集上的优化结果将以JSON格式自动保存至日志目录，便于后续的性能分析与比较。该设计极大简化了实验流程，使研究者能专注于算法本身的改进与评估。

背景与挑战

背景概述

SmoothE基准数据集由康奈尔大学的研究团队于2025年提出，旨在解决电子设计自动化与程序优化领域中e-graph提取的核心问题。该数据集作为SmoothE方法的关键评估基准，汇集了来自多个前沿研究的实例，涵盖逻辑电路、数值计算与布尔表达式等多样化应用场景。其创建推动了基于梯度下降的连续优化技术在离散组合问题中的应用，为硬件加速与算法协同设计提供了新的实证基础，显著提升了复杂成本模型下最优解搜索的效率与可扩展性。

当前挑战

该数据集所应对的领域挑战在于e-graph提取本质上是一个高维离散优化问题，传统方法难以在庞大搜索空间中高效平衡解的质量与计算开销。构建过程中的挑战包括：整合异构基准时需统一不同来源的数据格式与语义；处理超大规模图实例时面临内存与计算资源的严格约束；以及确保基准的多样性与代表性，以全面评估算法在真实场景下的鲁棒性与泛化能力。

常用场景

经典使用场景

在程序优化与硬件设计领域，SmoothE基准数据集为评估可微分e图提取算法的性能提供了标准化测试平台。该数据集汇集了来自多个领域的e图实例，涵盖从逻辑电路综合到数值精度优化等复杂场景。研究人员利用这些实例，能够系统地验证算法在离散优化问题连续化处理中的有效性，特别是在处理大规模图结构时，数据集的高复杂度实例成为衡量算法扩展性与鲁棒性的关键标尺。

实际应用

在实际工程层面，该数据集直接服务于高性能计算与专用硬件生成流程。例如，在深度学习编译器与张量运算优化中，工程师利用数据集中的tensat等基准来测试算法能否自动生成高效的算子融合方案。同样，在数字电路设计领域，impress和circuits等实例帮助工具链实现更优的逻辑综合与布局布线，从而在芯片设计中达成面积、功耗与性能的平衡。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于可微分程序优化的经典工作。其中，e-boost作为基于整数线性规划的提取方法，与SmoothE形成了互补与竞争关系；后续研究进一步探索了将两种技术结合的混合策略。此外，数据集中的各子基准也分别推动了其来源领域的发展，如herbie基准促进了浮点程序精度优化，而diospyros基准则加速了硬件加速器自动生成技术的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集