five

JUPITER Benchmark Suite|高性能计算数据集|基准测试数据集

收藏
arXiv2024-08-30 更新2024-09-04 收录
高性能计算
基准测试
下载链接:
https://github.com/FZJ-JSC/jubench
下载链接
链接失效反馈
资源简介:
JUPITER Benchmark Suite是由于利希超级计算中心开发的一个包含23个基准程序的综合数据集,旨在支持欧洲首个百亿亿次超级计算机JUPITER的采购。该数据集包括7个合成基准和16个应用基准,涵盖了天气和气候、神经科学、量子物理、材料设计、生物学等多个科学领域。数据集的创建过程包括基于当前和先前计算时间分配的分析,选择应用程序,准备和优化基准,以及修订描述和打包用于采购。该数据集的应用领域广泛,旨在通过提供真实的应用性能评估,确保新系统的实用性和广泛采用,特别是在百亿亿次计算时代的高性能计算系统设计中。
提供机构:
于利希超级计算中心
创建时间:
2024-08-30
原始信息汇总

JUPITER Benchmark Suite

概述

JUPITER Benchmark Suite是一个元仓库,用于存放与SC24论文同名的基准测试套件。每个单独的基准测试都位于其自己的仓库中,并以子模块的形式包含在此元仓库中。

包含的基准测试

以下是包含在该基准测试套件中的各个基准测试及其对应的仓库链接:

AI搜集汇总
数据集介绍
main_image_url
构建方式
JUPITER Benchmark Suite的构建旨在满足欧洲首台exascale超级计算机JUPITER的采购需求,确保系统能够满足用户需求。该数据集包含了16个来自不同领域的应用,并与领域科学家密切合作,确保了应用的相关性和严谨性。数据集的开发过程包括对现有和未来用户群体的需求分析、工作负载的多样性实现、以及应用基准和合成基准的结合。为了满足采购过程中对可重复性、可重现性和可重用性的要求,数据集的执行过程被简化和自动化,所有组件都得到了充分的文档记录,并验证了计算结果。此外,数据集采用了模块化设计,并发布了开源软件,以促进未来的适应性和可持续性。
特点
JUPITER Benchmark Suite的特点在于其全面性和实用性。数据集包含了23个基准程序,覆盖了不同的领域和计算密集型、内存密集型和I/O密集型工作负载。这些基准程序被分为三个类别:Base、High-Scaling和合成基准。Base基准用于激励系统设计,High-Scaling基准用于评估系统在大型规模下的可扩展性,合成基准用于测试硬件组件的特定性能。数据集还包括了7个已知的合成基准,用于测试硬件组件的特定性能。每个基准程序都有详细的描述和可扩展性研究,并作为开源软件发布。
使用方法
JUPITER Benchmark Suite的使用方法包括以下几个方面:首先,用户需要了解数据集的背景信息,包括采购方案、系统架构和实施情况。其次,用户需要熟悉数据集的基准程序,包括应用基准和合成基准,并了解其特点和适用场景。然后,用户可以使用JUBE框架执行基准程序,并通过JUBE脚本和参数定义文件来配置执行参数。最后,用户需要了解数据集的评估方法和标准,并根据FOM(Figure-of-Merit)来评估系统设计的性能。此外,用户还可以参考数据集的描述文档和验证结果,以确保结果的准确性和可靠性。
背景与挑战
背景概述
在超算领域,基准测试对于评估系统性能至关重要,它们不仅定义了系统组件的关键方面,还确保了系统的高可用性和广泛采用。JUPITER Benchmark Suite是一套包含16个应用的数据集,旨在为JUPITER,欧洲第一台百亿亿次超级计算机的采购提供支持。该数据集由Jülich Supercomputing Centre Forschungszentrum Jülich的研究人员开发,并于2022年初启动,2023年10月完成合同授予。JUPITER Benchmark Suite代表了向开放科学和可重复性愿景迈出的第一步,它包括了来自各个领域的应用,旨在确保系统的实际可用性。该数据集已作为开源软件发布,为高性能计算领域提供了宝贵的资源。
当前挑战
JUPITER Benchmark Suite面临着一系列挑战。首先,它需要解决领域问题,即如何确保基准测试能够准确反映用户需求,并适应未来的工作负载。其次,在构建过程中,研究人员面临着确保基准测试的可重复性、可复制性和可重用性的挑战。此外,随着系统架构的不断发展,如何确保基准测试能够适应不同的计算和内存比也是一项挑战。最后,随着人工智能等领域的快速发展,如何确保基准测试能够覆盖这些新兴领域的工作负载也是一个重要问题。
常用场景
经典使用场景
JUPITER Benchmark Suite 是一个专为评估和采购高性能计算系统而设计的综合基准测试套件,它包括来自不同领域的 23 个基准程序,旨在确保新系统的高实用性和广泛采用。该套件在采购欧洲第一台百亿亿次超级计算机 JUPITER 时发挥了关键作用,通过实际应用来评估系统的性能,从而为系统设计提供指导。
实际应用
JUPITER Benchmark Suite 的实际应用场景包括高性能计算系统的采购和评估。该套件为采购方提供了一个全面、客观的评估工具,帮助他们选择最适合实际应用需求的系统。此外,该套件还可以用于评估现有系统的性能,为新系统的设计和优化提供参考。
衍生相关工作
JUPITER Benchmark Suite 的发布为高性能计算领域带来了许多衍生的工作。例如,该套件的设计和实施经验可以用于其他高性能计算系统的采购和评估。此外,该套件中的许多应用程序也被用于其他领域的研究,如天气和气候、神经科学、量子物理等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

ARC (Abstraction and Reasoning Corpus)

ARC(抽象与推理语料库)是由光州科学技术院和高丽大学共同创建的数据集,旨在评估和提升人工智能系统的抽象推理能力。该数据集包含多种复杂的网格编辑任务,涉及大量的动作空间和多样化的任务类型。数据集的创建过程基于Gymnasium环境,通过定义特定的动作和状态空间来模拟ARC挑战。ARC数据集主要应用于强化学习领域,特别是用于开发和测试能够解决复杂推理问题的AI模型。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录