OCS Laghos Sample Dataset
收藏github2024-04-11 更新2024-05-31 收录
下载链接:
https://github.com/lanl-ocs/laghos-sample-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由Laghos模拟应用程序生成的3D网格样本数据集,用于本地OCS开发和测试。数据集包含256个格式相同的Parquet文件,每个文件存储特定模拟时间步的状态,从时间步36000到37275。模拟包含524,288个网格元素和612,311个顶点,每个时间步产生4,194,304个节点值,每个Parquet文件包含4,194,304行。所有Parquet文件包含一个行组和10列,代表节点值的各种属性。
This is a 3D mesh sample dataset generated by the Laghos simulation application, intended for local OCS development and testing. The dataset comprises 256 Parquet files of identical format, each storing the state at a specific simulation timestep, ranging from timestep 36000 to 37275. The simulation includes 524,288 mesh elements and 612,311 vertices, producing 4,194,304 node values per timestep, with each Parquet file containing 4,194,304 rows. All Parquet files consist of one row group and 10 columns, representing various attributes of the node values.
创建时间:
2023-10-09
原始信息汇总
数据集概述
数据集名称
- OCS Laghos Sample Dataset
数据集内容
- 包含256个等格式的Apache Parquet文件。
- 每个文件存储特定模拟时间步的状态,时间步范围从36000至37275。
- 模拟包含524,288个网格元素和612,311个顶点,每个时间步产生4,194,304个节点值。
文件结构
- 每个Parquet文件包含4,194,304行。
- 文件包含10列:
element_id,vertex_id,v_x,v_y,v_z,rho,e,x,y,z。 - 每列数据类型为数组,使用snappy压缩和plain编码。
数据压缩
- Parquet文件原始大小为288MB,通过snappy压缩后为97MB。
- 上传至GitHub前,进一步使用brotli压缩,大小降至39MB。
数据集使用
- 数据集用于本地OCS开发和测试。
- 通过运行Laghos模拟应用程序生成,使用单个MPI进程在单个节点上执行。
数据集元数据
- 每个Parquet文件包含一个行组。
- 列统计信息包括计数、平均大小、空值、最小/最大值。
示例查询
- 使用DuckDB SQL查询数据集,示例查询展示了如何筛选和分析数据。
数据集图形展示
- 使用VisIt工具展示数据的能量、密度和速度分布。
数据集生成
- 数据集由Triad National Security, LLC员工准备,该公司负责运营Los Alamos National Laboratory。
搜集汇总
数据集介绍

构建方式
OCS Laghos Sample Dataset是通过运行开源的Laghos模拟应用程序生成的,该应用程序使用单个MPI进程在单个节点上运行,并将结果转换为Apache Parquet格式。数据集包含了从时间步36000到37275的256个等格式化的Parquet文件,每个文件存储特定时间步的模拟状态。模拟中包含524,288个网格元素和612,311个顶点,每个时间步产生4,194,304个节点值,每个Parquet文件包含4,194,304行。所有文件通过Snappy压缩技术进行压缩,进一步通过Brotli压缩以适应GitHub的文件大小限制。
特点
该数据集的主要特点在于其高分辨率和高效存储。每个Parquet文件包含10列,分别表示节点值的不同属性,如元素ID、顶点ID、速度分量、密度和能量等。数据通过Snappy和Brotli双重压缩,显著减少了文件大小,从原始的288MB降至39MB,极大地提高了存储和传输效率。此外,数据集的结构化设计使得每个文件的行数和列数固定,便于大规模并行处理和分析。
使用方法
使用该数据集时,首先需要通过Brotli解压缩工具恢复原始的Parquet文件。解压后,用户可以使用支持Parquet格式的分析工具,如DuckDB,进行查询和分析。数据集的结构化设计使得用户能够轻松地提取特定时间步的模拟状态,并进行进一步的计算和可视化。例如,用户可以通过SQL查询提取特定区域的节点值,并进行统计分析或图形展示。此外,数据集还支持与VisIt等可视化工具的集成,便于用户直观地理解模拟结果。
背景与挑战
背景概述
OCS Laghos Sample Dataset是由Triad National Security, LLC为Los Alamos National Laboratory创建的,旨在支持本地OCS开发和测试的高质量3D网格数据集。该数据集通过运行开源的Laghos模拟应用程序生成,涵盖了从时间步36000到37275的256个时间步长,每个时间步长包含4,194,304个节点值,总计524,288个网格元素和612,311个顶点。数据以Apache Parquet格式存储,经过Snappy和Brotli压缩,显著提高了存储效率。该数据集不仅为高性能计算领域的研究人员提供了宝贵的资源,还为探索高阶有限元和谱元方法在复杂流体动力学问题中的应用提供了基础。
当前挑战
OCS Laghos Sample Dataset在构建过程中面临了多项挑战。首先,数据集的规模庞大,每个时间步长包含4,194,304行数据,这对存储和处理能力提出了极高的要求。其次,数据的高维性和复杂性使得数据压缩和存储成为一项技术难题,尽管通过Snappy和Brotli压缩技术有效减少了文件大小,但仍需进一步优化以提高数据访问效率。此外,数据集的生成依赖于高性能计算资源,如何在有限的计算资源下高效生成和处理数据也是一个重要的挑战。最后,数据集的广泛应用需要跨平台的数据访问和分析工具,如何确保数据在不同环境下的兼容性和易用性也是一个亟待解决的问题。
常用场景
经典使用场景
OCS Laghos Sample Dataset 主要用于高性能计算领域的本地开发和测试,特别是在使用Laghos模拟应用程序进行流体动力学仿真时。该数据集包含了从时间步36000到37275的256个等格式Parquet文件,每个文件存储了特定时间步的模拟状态。这些数据可以用于验证和优化Laghos模拟的计算结果,尤其是在处理大规模网格元素和节点值时,确保计算精度和效率。
实际应用
在实际应用中,OCS Laghos Sample Dataset 可用于开发和测试高性能计算软件,特别是在流体动力学模拟和优化方面。例如,工程师和科学家可以使用该数据集来验证新的算法或优化现有算法的性能,确保其在处理大规模数据时的效率和准确性。此外,该数据集还可用于教育和培训,帮助学生和研究人员理解复杂流体动力学模拟的基本原理和实际应用。
衍生相关工作
OCS Laghos Sample Dataset 的发布激发了多个相关研究和工作,特别是在高性能计算和流体动力学领域。例如,研究者可以基于该数据集开发新的数据处理和分析工具,进一步优化流体动力学模拟的计算效率。此外,该数据集还为开发新的可视化工具提供了基础,帮助研究者更直观地理解和分析复杂的流体动力学现象。这些衍生工作不仅推动了技术的发展,也为相关领域的教育和培训提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成



