five

OpenLS-D|逻辑综合数据集|机器学习数据集

收藏
arXiv2024-11-14 更新2024-11-16 收录
逻辑综合
机器学习
下载链接:
https://github.com/LogicFactory/ACE/blob/master/OpenLS-D/readme.md
下载链接
链接失效反馈
资源简介:
OpenLS-D是由中国科学院计算技术研究所等机构创建的逻辑综合数据集,旨在支持机器学习在逻辑综合过程中的应用。该数据集包含46个组合设计,总计超过966,000个布尔电路,每个设计包含21,000个电路,由1,000个综合配方生成。数据集创建过程包括布尔表示、逻辑优化和技术映射三个基本步骤,并支持半定制化,允许研究人员添加步骤和逐步细化生成的数据集。OpenLS-D的应用领域广泛,包括电路分类、电路排名、质量结果预测和概率预测等,旨在解决逻辑综合中的多样化问题。
提供机构:
中国科学院计算技术研究所
创建时间:
2024-11-14
AI搜集汇总
数据集介绍
构建方式
OpenLS-D数据集的构建基于一个自适应的开源数据生成框架,旨在增强逻辑合成过程中的机器学习应用。该框架涵盖了逻辑合成的三个基本步骤:布尔表示、逻辑优化和技术映射。通过将中间文件存储为Verilog和GraphML格式,保留了原始信息,并允许研究人员添加步骤以逐步完善生成的数据集。此外,框架还包括一个自适应电路引擎,用于加载GraphML文件以进行最终数据集打包和子数据集提取。生成的OpenLS-D数据集包含46个来自成熟基准的组合设计,总计超过966,000个布尔电路,每个设计包含21,000个电路,这些电路由1000个合成配方生成,包括7000个布尔网络、7000个ASIC网表和7000个FPGA网表。
使用方法
OpenLS-D数据集的使用方法多样,适用于多种下游任务,如电路分类、电路排序、质量结果(QoR)预测和概率预测。每个任务通过电路引擎从OpenLS-D数据集中提取和重新标记数据集。例如,电路分类任务可以通过加载数据集中的布尔电路和相应的标签进行训练,而QoR预测任务则需要加载未优化的布尔电路、优化序列和归一化的QoR数据。通过这些方法,研究人员可以利用OpenLS-D数据集进行广泛的实验和模型训练,从而推动逻辑合成领域的发展。
背景与挑战
背景概述
OpenLS-D数据集由中科院计算技术研究所、鹏城实验室和北京大学等多家机构的研究人员共同开发,旨在为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中,通过机器学习方法提升效率和质量。OpenLS-D数据集的创建不仅填补了现有数据集在任务适应性和集成机器学习能力方面的空白,还通过包含46个组合设计的基准测试,总计超过966,000个布尔电路,展示了其在电路分类、电路排序、质量结果预测和概率预测等多项下游任务中的广泛应用性。
当前挑战
OpenLS-D数据集面临的挑战主要集中在两个方面。首先,逻辑综合领域的复杂性要求数据集能够支持多样化的机器学习任务,这需要在数据集生成过程中处理大量的布尔电路和优化序列,确保数据集的多样性和适应性。其次,数据集的构建过程中需要解决布尔电路的转换和优化问题,确保中间文件的原始信息得以保留,并能够在Verilog和GraphML格式之间进行半定制化处理。此外,数据集还需要支持新数据特征的集成,以应对不断出现的新挑战。
常用场景
经典使用场景
OpenLS-D数据集在逻辑综合领域中被广泛应用于机器学习任务的增强。其经典使用场景包括电路分类、电路排序、质量结果(QoR)预测和概率预测。这些任务通过从OpenLS-D数据集中提取和重新标记的数据集来实现,利用电路引擎进行数据集的提取和包装。实验结果表明,该数据集具有多样性和广泛适用性,能够支持多种逻辑综合任务。
解决学术问题
OpenLS-D数据集解决了逻辑综合领域中缺乏全面和可靠数据集的问题。通过提供一个适应性强、支持多种机器学习任务的数据集生成框架,OpenLS-D使得研究人员能够在逻辑优化、技术映射和形式验证等不同方面进行深入研究。这不仅提高了逻辑综合步骤的效率和质量,还为开发新的EDA工具和方法提供了坚实的基础。
实际应用
在实际应用中,OpenLS-D数据集被用于开发和验证各种逻辑综合算法和模型。例如,在电路设计自动化流程中,该数据集可以用于训练机器学习模型,以优化电路的布线和布局。此外,OpenLS-D还可以用于评估新算法在不同设计类型和类别上的性能,从而确保其在实际应用中的有效性和可靠性。
数据集最近研究
最新研究方向
在逻辑合成领域,OpenLS-D数据集的最新研究方向主要集中在通过机器学习技术提升逻辑合成过程的效率和质量。该数据集不仅涵盖了从布尔表示到技术映射的三个基本逻辑合成步骤,还通过引入自适应电路引擎,支持多种机器学习任务,如电路分类、电路排序、质量结果(QoR)预测和概率预测。这些任务的实现不仅展示了数据集的多样性和广泛适用性,还为逻辑合成流程中的各个环节提供了新的优化可能性。通过集成新的数据特征,OpenLS-D数据集为应对新的挑战提供了更加灵活和多功能的解决方案。
相关研究论文
  • 1
    An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis中国科学院计算技术研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录