ForgeHLS

github2025-08-08 更新2025-09-01 收录

下载链接：

https://github.com/zedong-peng/ForgeHLS

下载链接

链接失效反馈

官方服务：

资源简介：

ForgeHLS是一个大规模、开源的高层次综合数据集，包含JSON格式的数据，位于code/forgehls_dataset_json/目录中。完整数据集及相关工件可在huggingface/ForgeHLS上获取，由Hugging Face团队提供官方托管支持，以容纳大规模基准测试

ForgeHLS is a large-scale, open-source high-level synthesis dataset. Its data is formatted in JSON and stored in the code/forgehls_dataset_json/ directory. The full dataset and associated artifacts are available at huggingface/ForgeHLS, which is officially hosted and supported by the Hugging Face team to accommodate large-scale benchmarking tasks.

创建时间：

2025-08-04

原始信息汇总

ForgeHLS 数据集概述

数据集简介

ForgeHLS 是一个大规模、开源的高层次综合（HLS）数据集，专为支持 HLS 相关研究而设计。

数据集内容

数据格式：JSON 格式
存储位置：
- GitHub：source_code/forgehls_dataset_json/data_of_designs_forgehls_with_strategy_formatted.json.gz
- Hugging Face：https://huggingface.co/datasets/zedongpeng/forgehls

数据集结构

数据集包含以下组成部分：

高层次综合设计数据
策略格式化信息
质量结果（QoR）数据

应用场景

质量结果预测（QoR Prediction）
自动编译指示插入（Automatic Pragma Insertion）

技术依赖

工具要求：
- Vitis HLS
- LLVM 和 Clang（版本需一致）
Python 包依赖：
- openai, anytree, pandas, matplotlib, notebook, seaborn, scikit-learn, scikit-optimize, tiktoken

引用信息

bibtex @misc{peng2025forgehls, title={ForgeHLS: A Large-Scale, Open-Source Dataset for High-Level Synthesis}, author={Zedong Peng and Zeju Li and Mingzhe Gao and Qiang Xu and Chen Zhang and Jieru Zhao}, year={2025}, eprint={2507.03255}, archivePrefix={arXiv}, primaryClass={cs.AR} }

相关资源

论文地址：https://arxiv.org/abs/2507.03255
团队文档：https://zeju.gitbook.io/lcm-team
数据集文档：source_code/forgehls_dataset_json/README.md

搜集汇总

数据集介绍

构建方式

在高级综合领域，ForgeHLS数据集的构建采用了系统化的工程流程，通过集成HLS工具链与LLVM/Clang编译器框架，对大规模硬件设计代码进行自动化处理。构建过程涵盖从高级语言代码解析、综合策略配置到质量结果评估的全链条，依托算法配置库生成多样化的设计实例，并通过结构化脚本确保数据的一致性与可复现性。

特点

作为当前规模最大的开源高级综合数据集，ForgeHLS囊括了经过精心格式化的JSON结构数据，集成了设计代码、综合策略与质量评估指标的多维度信息。其突出特点在于提供完整的下游任务支持，包括质量结果预测与自动编译指导插入，并通过Hugging Face平台提供官方托管，确保了数据访问的便捷性与长期维护的稳定性。

使用方法

研究者可通过Hugging Face平台直接获取ForgeHLS数据集，或从GitHub仓库下载预处理的JSON格式文件。使用前需配置Vitis HLS工具链及指定版本的LLVM/Clang环境，并安装必要的Python依赖库。数据集支持质量结果分析、自动优化策略生成等下游任务，具体实施可参考仓库中的示例代码与文档说明。

背景与挑战

背景概述

在电子设计自动化领域，高层次综合技术作为连接算法描述与硬件实现的关键桥梁，长期以来面临基准数据集匮乏的瓶颈。ForgeHLS数据集由香港中文大学研究团队于2025年创建，旨在构建大规模开源的高层次综合基准数据集，推动HLS工具在质量评估、性能预测和自动化优化方面的研究进展。该数据集通过系统化收集经过策略优化的设计实例，为研究人员提供了探索HLS设计空间与质量结果关联性的重要基础，对促进硬件设计自动化领域的算法创新具有显著影响力。

当前挑战

该数据集致力于解决高层次综合中质量结果预测与自动化优化策略生成的核心难题，包括多维度设计空间探索的复杂性、硬件资源与时序约束的平衡优化，以及不同优化策略对电路性能影响的量化评估。在构建过程中，研究团队需要克服大规模设计实例的标准化采集、异构HLS工具链的集成适配、多样化优化策略的系统性实施，以及质量评估指标的统一量化等工程技术挑战，确保数据集在规模性和质量上的双重可靠性。

常用场景

经典使用场景

在集成电路设计领域，ForgeHLS数据集为高层次综合技术研究提供了重要支撑。该数据集通过大规模开源设计实例，支持研究人员探索从高级语言到硬件描述语言的自动转换过程，特别是在优化算法选择和设计空间探索方面展现出显著价值。研究者可基于该数据集构建预测模型，评估不同综合策略对电路性能指标的影响，从而推动HLS工具链的智能化发展。

解决学术问题

ForgeHLS有效解决了高层次综合研究中缺乏标准化基准数据集的核心问题。该数据集通过系统化的设计空间采样和质量指标量化，为学术界提供了可重复研究的实验基础。其重要意义在于建立了HLS算法评估的统一框架，使得不同研究团队能够客观比较综合策略的有效性，显著促进了领域内研究成果的可比性和可验证性，推动了HLS技术从经验导向向数据驱动范式的转变。

衍生相关工作

基于ForgeHLS数据集已衍生出多项重要研究工作，其中最具代表性的是质量结果预测模型和自动编译指示插入系统。这些工作利用数据集的大规模样本特征，开发了基于机器学习的综合质量评估方法，为HLS工具智能化提供了关键技术路径。后续研究进一步扩展了数据集在异构计算架构和特定领域加速器设计中的应用，形成了完整的智能电子设计自动化研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集