Galaxy Clustering Dataset

Name: Galaxy Clustering Dataset
Creator: 麻省理工学院
Published: 2024-10-28 00:58:48
License: 暂无描述

arXiv2024-10-28 更新2024-10-31 收录

下载链接：

https://github.com/smsharma/eqnn-jax

下载链接

链接失效反馈

官方服务：

资源简介：

Galaxy Clustering Dataset是由麻省理工学院的研究团队从Quijote N-body模拟中提取的，用于测试点云处理算法的数据集。该数据集包含12,384个模拟的星系位置和属性，每个模拟包含5000个最重的暗物质晕的3D坐标。数据集的创建过程涉及复杂的模拟和处理，旨在捕捉宇宙的大规模结构和多尺度信息。该数据集主要应用于宇宙学领域，旨在解决从星系分布中提取有意义信息的问题，特别是关于暗物质分布和宇宙膨胀历史的推断。

The Galaxy Clustering Dataset was extracted from the Quijote N-body simulations by a research team at the Massachusetts Institute of Technology (MIT), serving as a benchmark dataset for testing point cloud processing algorithms. This dataset encompasses 12,384 sets of simulated galaxy positions and their associated properties, with each individual simulation containing the 3D coordinates of the 5000 most massive dark matter halos. The development of this dataset involves complex simulation and processing procedures, with the goal of capturing the large-scale cosmic structure and multi-scale cosmological information. Primarily utilized in the field of cosmology, this dataset is intended to extract meaningful information from galaxy distributions, specifically for inferring dark matter distributions and the historical expansion of the universe.

提供机构：

麻省理工学院

创建时间：

2024-10-28

原始信息汇总

$E(3)$ Equivariant Graph Neural Networks in Jax

数据集概述

该数据集包含用于训练和测试的宇宙学基准数据，以TFRecord格式存储。数据集可通过Zenodo下载，DOI为10.5281/zenodo.11479419。

数据集下载

数据集下载脚本位于benchmarks/galaxies/download_tfrecords.sh，运行该脚本可将数据集下载至benchmarks/galaxies/quijote_records目录。

数据集使用

图级别任务：运行python benchmarks/galaxies/train_cosmology.py。
节点级别任务：运行python benchmarks/galaxies/train_velocities.py。

数据集引用

引用信息详见CITATION.cff。

搜集汇总

数据集介绍

构建方式

该数据集源自Quijote N-body模拟套件中的Sobol序列集，模拟了512^3暗物质粒子在周期性共动体积中的演化。每个模拟通过改变宇宙学参数和初始条件的随机相位，提供了多种可能的宇宙模型。暗物质晕通过halo-finding算法识别，并选择5000个最质量的晕来构建数据集。最终数据集包含12,384个模拟，分为训练集、验证集和测试集，用于评估图神经网络在同时捕捉局部聚类环境和长程相关性方面的能力。

特点

Galaxy Clustering Dataset的一个显著特点是其高度的对称性和各向同性，这源于宇宙的均匀性和各向同性性质。数据集包含5000个最质量的暗物质晕的3D坐标，以及每个晕的质量、速度和角动量矢量。此外，数据集还包括各向同性的两点相关函数（2PCF），用于量化不同尺度上的星系聚类信息。这些特点使得该数据集成为测试和开发新型机器学习算法，特别是图神经网络的理想基准。

使用方法

该数据集主要用于评估图神经网络在处理点云数据时的性能，特别是其在捕捉局部和全局信息方面的能力。用户可以通过提供的Python接口轻松访问和预处理数据。数据集支持两种基准任务：图级预测任务（如推断宇宙学参数）和节点级预测任务（如预测每个星系的3D速度）。通过这些任务，用户可以评估模型在不同尺度上的信息提取能力，并探索对称性保持架构在处理宇宙学数据时的优势。

背景与挑战

背景概述

Galaxy Clustering Dataset（星系聚类数据集）由麻省理工学院（MIT）和人工智能与基础相互作用研究所（IAIFI）的研究人员于2024年创建。该数据集源自模拟的星系位置和属性，旨在通过图神经网络（GNN）评估同时捕捉局部聚类环境和长程相关性的能力。由于宇宙的均匀性和各向同性，数据表现出高度的对称性。研究团队专注于评估欧几里得对称性保持（E(3)-equivariant）图神经网络的性能，发现其在下游性能和模拟效率方面优于非等变对手和领域特定的信息提取技术。然而，现有架构在捕捉长程相关性信息方面不如领域特定的基线，这激励了未来在更适合提取长程信息的架构上的工作。

当前挑战

Galaxy Clustering Dataset面临的挑战包括：1) 处理大规模点云数据，其规模远超其他科学领域常见的图处理数据集，这带来了独特的可扩展性和跨点云处理信息的挑战；2) 捕捉多尺度信息，由于引力作用，物质在小尺度上强烈聚集，而在大尺度上则表现出长程相关性，这要求算法能够同时捕捉局部和全局信息；3) 保持对称性结构，宇宙的均匀性和各向同性意味着星系和其他宇宙结构的分布应表现出欧几里得对称性（即对平移、旋转和反射的不变性）。尽管数据本身不是图结构，但图神经网络提供了一种高效处理数据的方式，特别是在保持对称性方面。

常用场景

经典使用场景

在宇宙学研究中，Galaxy Clustering Dataset 被广泛用于模拟星系的位置和属性，这些数据以点云的形式表示。通过图神经网络（GNN），研究人员能够同时捕捉局部聚类环境和长程相关性。特别是在处理大规模数据时，E(3)-等变图神经网络显示出优于非等变模型和领域特定信息提取技术的性能，尤其是在下游任务和模拟效率方面。

解决学术问题

该数据集解决了宇宙学中从星系分布中提取信息的关键挑战。通过模拟星系位置和属性，研究人员能够评估图神经网络在捕捉多尺度信息方面的能力，特别是局部和全局相关性。这不仅有助于理解宇宙的大尺度结构，还为未来的宇宙学调查提供了数据处理和压缩算法的基础。

衍生相关工作

基于 Galaxy Clustering Dataset，许多相关工作得以开展，特别是在图神经网络和等变神经网络领域。例如，Makinen et al. (2022) 使用GNN从星系位置中提取宇宙学参数，而Villanueva-Domingo and Villaescusa-Navarro (2022) 则研究了更大规模的星系点云。此外，Dwivedi et al. (2022) 引入的Long Range Graph Benchmark (LRGB) 也与该数据集的研究密切相关，强调了捕捉长程相关性的重要性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集