The Well

github2024-12-05 更新2024-12-06 收录

下载链接：

https://github.com/PolymathicAI/the_well

下载链接

链接失效反馈

官方服务：

资源简介：

The Well是一个大规模的机器学习数据集集合，包含各种时空物理系统的数值模拟数据。数据集涵盖了生物系统、流体动力学、声波散射以及银河系外流体或超新星爆炸的磁流体动力学模拟等多个领域。

The Well is a large-scale collection of machine learning datasets containing numerical simulation data for various spatiotemporal physical systems. It covers multiple research domains such as biological systems, fluid dynamics, acoustic scattering, and magnetohydrodynamic simulations of extragalactic fluids or supernova explosions.

创建时间：

2024-12-02

原始信息汇总

The Well: 15TB of Physics Simulations

概述

The Well是一个大规模的机器学习数据集集合，包含多种时空物理系统的数值模拟数据。数据集涵盖生物系统、流体动力学、声波散射以及星系外流体或超新星爆炸的磁流体动力学模拟等多个领域。总数据量达到15TB，包含16个数据集。

数据集使用

安装

从PyPI安装: pip install the_well
从源码安装: bash git clone https://github.com/PolymathicAI/the_well cd the_well pip install .
安装基准依赖: pip install the_well[benchmark]

数据下载

使用the-well-download命令下载数据集。 bash the-well-download --base-path path/to/base --dataset active_matter --split train
若省略--dataset和--split，将下载所有数据集和分割。

数据流

数据集也可通过Hugging Face进行流式访问。 python from the_well.data import WellDataset from torch.utils.data import DataLoader

trainset = WellDataset( well_base_path="hf://datasets/polymathic-ai/", well_dataset_name="active_matter", well_split_name="train", ) train_loader = DataLoader(trainset)

基准测试

提供了基准测试脚本，用于在不同数据集上评估代理模型。 bash cd the_well/benchmark python train.py experiment=fno server=local data=active_matter

引用

@inproceedings{ohana2024thewell, title={The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning}, author={Ruben Ohana and Michael McCabe and Lucas Thibaut Meyer and Rudy Morel and Fruzsina Julia Agocs and Miguel Beneitez and Marsha Berger and Blakesley Burkhart and Stuart B. Dalziel and Drummond Buschman Fielding and Daniel Fortunato and Jared A. Goldberg and Keiya Hirashima and Yan-Fei Jiang and Rich Kerswell and Suryanarayana Maddu and Jonah M. Miller and Payel Mukhopadhyay and Stefan S. Nixon and Jeff Shen and Romain Watteaux and Bruno R{e}galdo-Saint Blancard and Fran{c{c}}ois Rozet and Liam Holden Parker and Miles Cranmer and Shirley Ho}, booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2024}, url={https://openreview.net/forum?id=00Sx577BT3} }

联系

联系人: Ruben Ohana, Michael McCabe
邮箱: {rohana,mmccabe}@flatironinstitute.org

问题反馈

可通过GitHub Issues提交问题、请求功能或提问。

搜集汇总

数据集介绍

构建方式

The Well数据集的构建汇聚了领域科学家和数值软件开发者的共同努力，涵盖了广泛的时空物理系统模拟。该数据集通过整合多个领域的数值模拟结果，形成了15TB的庞大数据库，包含16个不同领域的数据集，如生物系统、流体动力学、声波散射以及星系外流体的磁流体力学模拟等。这些数据集的构建旨在为机器学习和计算科学研究提供丰富的基准数据，支持单独使用或作为更广泛基准套件的一部分。

特点

The Well数据集的显著特点在于其规模庞大且领域多样性。总数据量达到15TB，涵盖16个不同领域的数据集，每个数据集的大小从6.9GB到5.1TB不等。这种多样性不仅体现在物理系统的类型上，还包括模拟的复杂性和精度。此外，数据集支持本地下载和Hugging Face平台上的流式访问，提供了灵活的使用方式。

使用方法

使用The Well数据集时，首先需通过PyPI或源代码安装The Well包。安装完成后，用户可以通过命令行工具the-well-download下载所需数据集。在训练管道中，用户可以导入WellDataset类，并使用DataLoader进行数据加载。对于大规模训练，建议下载数据至本地以提高性能。此外，数据集还支持通过Hugging Face平台进行流式访问，适用于需要快速获取数据的用户。

背景与挑战

背景概述

The Well数据集由Polymathic AI组织主导，联合Flatiron Institute、University of Colorado Boulder等多家知名研究机构共同开发，于2024年发布。该数据集包含15TB的物理模拟数据，涵盖生物系统、流体力学、声波散射及星系外流体磁流体动力学等多个领域。其核心研究问题在于通过大规模模拟数据，推动机器学习和计算科学领域的发展，特别是为复杂物理系统的建模与预测提供数据支持。The Well的发布不仅丰富了相关领域的数据资源，还为研究人员提供了一个综合性的基准测试平台，极大地促进了跨学科研究的合作与创新。

当前挑战

The Well数据集在构建过程中面临诸多挑战。首先，数据量庞大，从6.9GB到5.1TB不等，总容量达15TB，对存储和计算资源提出了极高要求。其次，数据涵盖多个复杂物理系统，确保数据质量和一致性是一大难题。此外，数据集的多样性也带来了处理和分析上的复杂性，需要高效的算法和工具来提取有价值的信息。最后，数据集的广泛应用性要求其接口和文档必须清晰易用，以便不同背景的研究人员能够快速上手。这些挑战不仅涉及技术层面，还涉及跨学科合作的协调与管理。

常用场景

经典使用场景

在物理学和计算科学的交叉领域，The Well数据集以其庞大的规模和多样化的模拟数据，成为机器学习和计算科学研究的重要资源。该数据集涵盖了从生物系统到流体动力学、声波散射以及超新星爆炸等广泛的时空物理系统模拟数据。研究者可以利用这些数据进行深度学习模型的训练和评估，从而加速在复杂物理现象理解和预测方面的研究进展。

实际应用

在实际应用中，The Well数据集被广泛用于开发和验证物理模拟算法，特别是在需要高精度预测的领域，如气候模型、天体物理学和材料科学。此外，该数据集还支持工业应用中的流体动力学模拟和优化设计，如航空航天工程和汽车工业中的空气动力学分析。

衍生相关工作

基于The Well数据集，许多研究工作得以展开，包括开发新的深度学习模型以提高物理模拟的精度和效率。例如，一些研究团队利用该数据集训练神经网络，以预测复杂流体的行为，从而在流体力学和气象学领域取得了显著进展。此外，该数据集还激发了跨学科的合作，推动了物理学、计算机科学和工程学的融合研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集