five

QuArch

收藏
arXiv2025-01-04 更新2025-01-07 收录
下载链接:
https://harvard-edge.github.io/QuArch/
下载链接
链接失效反馈
官方服务:
资源简介:
QuArch是由哈佛大学等机构联合创建的一个计算机架构领域的问题-答案数据集,包含1500条经过专家验证的问题-答案对。该数据集旨在评估语言模型在计算机架构领域的知识掌握情况,涵盖了处理器设计、内存系统、性能优化等多个主题。数据集的构建过程包括从学术文献、技术文档和行业资源中提取知识,并通过多层次的专家和语言模型验证确保问题的高质量。QuArch不仅用于评估现有语言模型的性能,还可用于微调小型模型,提升其在计算机架构领域的表现。该数据集的应用领域包括硬件设计、系统优化和AI驱动的计算机架构研究。

QuArch is a question-answer dataset in the field of computer architecture, jointly created by Harvard University and other institutions. It contains 1500 expert-validated question-answer pairs. This dataset aims to evaluate the knowledge mastery of large language models in the computer architecture domain, covering multiple topics including processor design, memory systems, performance optimization and others. The dataset construction process extracts knowledge from academic literature, technical documents and industry resources, and ensures the high quality of the questions through multi-level validation by experts and large language models. Not only can QuArch be used to assess the performance of existing large language models, but it can also be employed to fine-tune small-scale models to improve their performance in the computer architecture field. Its application areas include hardware design, system optimization and AI-driven computer architecture research.
提供机构:
哈佛大学, 印度理工学院孟买分校, 北卡罗来纳州立大学, Qualcomm AI Research, Google Deepmind
创建时间:
2025-01-04
搜集汇总
数据集介绍
main_image_url
构建方式
QuArch数据集的构建过程遵循了系统化的流程,首先通过整合五十年来的计算机架构知识,构建了一个名为“Archipedia”的综合性知识库。该知识库涵盖了从学术文献到行业技术文档的广泛资源,确保了数据的全面性和权威性。随后,利用商业语言模型生成基于Archipedia的填空题式多选题,并通过多层次的专家验证和语言模型辅助审查,确保问题的技术严谨性和教育价值。最终,数据集补充了来自在线教育平台的公开问答,进一步丰富了其内容的深度和广度。
特点
QuArch数据集包含了1500个经过人工验证的问答对,覆盖了处理器设计、内存系统和性能优化等多个计算机架构领域。该数据集不仅评估了语言模型对基础架构概念的理解,还涉及深度学习加速器和量子计算架构等前沿主题。通过多层次的验证流程,QuArch确保了问题的高质量和多样性,能够有效测试模型在复杂系统权衡中的表现。此外,数据集的分布反映了计算机架构领域的关键主题,如处理器架构、内存系统和互连网络等,为模型提供了全面的知识覆盖。
使用方法
QuArch数据集主要用于评估和提升语言模型在计算机架构领域的知识理解能力。研究人员可以通过该数据集对现有模型进行基准测试,评估其在零样本设置下的表现。此外,QuArch还可用于微调小型语言模型,实验表明,经过微调的模型在准确率上可提升5.4%至8.3%。数据集的多选题形式使其适用于教育场景,帮助学习者巩固计算机架构的核心概念。同时,QuArch的开放性和高质量标注为未来开发更复杂的AI驱动工具提供了坚实的基础。
背景与挑战
背景概述
QuArch数据集由哈佛大学等机构的研究团队于2025年推出,旨在评估和提升语言模型在计算机架构领域的理解能力。该数据集包含1500个经过人工验证的问答对,涵盖了处理器设计、内存系统和性能优化等多个核心领域。QuArch的创建填补了硬件工程领域缺乏专门数据集的空白,为AI驱动的计算机架构研究提供了重要的基准工具。通过该数据集,研究人员首次全面评估了当前最先进语言模型在计算机架构知识上的表现,揭示了大型模型与小型模型之间12%的性能差距,并展示了通过微调提升小型模型性能的潜力。
当前挑战
QuArch数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管该数据集为计算机架构领域的问答任务提供了基准,但当前的语言模型在处理内存系统、互连网络和基准测试等复杂系统级问题时仍表现出显著的不足,模型在这些领域的准确率较低,表明其在理解复杂技术细节和系统级权衡方面仍有较大提升空间。其次,在数据集构建过程中,研究人员面临了如何确保问题的高质量和多样性的挑战。尽管通过多层次的专家验证和LM辅助生成确保了问题的技术严谨性,但如何进一步扩展数据集的覆盖范围,尤其是增加更多高级推理和系统设计相关的问题,仍然是未来需要解决的关键问题。
常用场景
经典使用场景
QuArch数据集在计算机架构领域的经典使用场景主要体现在其对语言模型(LMs)在计算机架构知识理解上的评估与提升。该数据集通过1500个经过人工验证的问题-答案对,涵盖了处理器设计、内存系统和性能优化等多个关键领域,为研究人员提供了一个标准化的基准,用于测试和优化语言模型在计算机架构领域的表现。特别是在内存系统、互连网络和基准测试等复杂领域,QuArch能够有效揭示语言模型的不足,并通过微调显著提升其性能。
解决学术问题
QuArch数据集解决了计算机架构领域语言模型知识理解不足的学术问题。通过提供专门针对计算机架构的问题-答案对,该数据集填补了现有通用基准测试在硬件工程领域的空白。研究表明,当前最先进的封闭源模型在QuArch上的准确率仅为84%,而小型开源模型的准确率更低,仅为72%。这一差距揭示了语言模型在计算机架构知识上的显著不足,尤其是在内存系统和互连网络等复杂领域。通过微调,QuArch能够将小型模型的准确率提升高达8%,为AI驱动的计算机架构研究奠定了基础。
衍生相关工作
QuArch数据集的推出催生了一系列相关研究工作,尤其是在AI驱动的硬件设计领域。例如,NVIDIA的ChipNeMo项目利用类似的数据集开发了专门用于芯片设计的语言模型。此外,QuArch还为其他硬件设计任务的数据集开发提供了参考,如VerilogEval和RTL生成任务的数据集。这些工作进一步推动了AI在硬件工程中的应用,特别是在寄存器传输级(RTL)生成、硬件验证和安全分析等领域。QuArch的成功也为未来开发更复杂的计算机架构数据集提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作