Fyrean/VFSynth25
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Fyrean/VFSynth25
下载链接
链接失效反馈官方服务:
资源简介:
# 🧬 Vector Field Synthesis Datasets
Official dataset repository for the paper:
**"Vector Field Synthesis with Sparse Streamlines Using Diffusion Model"**
*IEEE Visualization and Visual Analytics (VIS) 2025*
This repository contains the training and evaluation datasets used for testing our diffusion-based synthesis framework. Our work focuses on the reconstruction of high-fidelity 2D vector fields from sparse, non-uniformly sampled streamlines—a challenging task in flow visualization and fluid dynamics.
---
## 📄 Citation
If you use these datasets or our framework in your research, please cite:
```bibtex
@inproceedings{phan2025vector,
title={Vector Field Synthesis with Sparse Streamlines Using Diffusion Model},
author={Phan, Nguyen K. and Morales Vargas, Ricardo Andres and Espriella, Sebastian and Chen, Guoning},
booktitle={2025 IEEE Visualization and Visual Analytics (VIS)},
year={2025},
doi={10.1109/VIS60296.2025.00065}
}
```
---
## 🏗️ Available Datasets
We utilize three distinct types of 2D vector field datasets, offering varying levels of physical complexity and topological features.
### 1. Synthetic Flow Dataset
**Primary Use:** Validating the accurate reconstruction of basic topological features like vortices and saddles.
* **Generation Method:** Created using a parametric model based on the work of Berenjkoub et al.
* **Formula:** The vector field $v(x)$ is generated by:
$$v(x) = S_{i} \cdot x \cdot \frac{v_{0}(||x||)}{||x||}$$
* **Key Components:** Utilizes three base shape matrices ($S_{i}$) and a Vatistas velocity profile ($v_0(r)$).
* **Quantity:** 41,000 distinct vector fields.
* **Resolution:** $128 \times 128$
* **File:** `synthetic.h5` (~3.9 GB)
### 2. Red Sea (Oceanographic) Data
**Primary Use:** Testing the model's ability to handle real-world oceanographic patterns with time-dependent fluid dynamics.
* **Source:** Generated using the **MIT Ocean General Circulation Model (MITgcm)**.
* **Geographic Scope:** Red Sea region ($30^{\circ}E–50^{\circ}E$ and $10^{\circ}N–30^{\circ}N$).
* **Details:** ~3,800 2D horizontal velocity slices representing horizontal segments at various depths and time steps.
* **Characteristics:** Contains characteristic oceanographic structures, such as steady eddy structures and boundary currents.
* **Resolution:** $128 \times 128$
* **File:** `ocean_flows.h5` (~595 MB)
### 3. CFD (Computational Fluid Dynamics) Data
**Primary Use:** Evaluating performance in complex, high-resolution turbulent environments.
* **Source:** Derived from 2D **Kolmogorov flow simulations** (numerical solutions to incompressible Navier-Stokes equations).
* **Parameters:** Simulations conducted at a **Reynolds number of 1000** to generate intricate turbulent structures.
* **Quantity:** 3,200 vector fields.
* **Resolution:** $128 \times 128$
* **File:** `jax_cfd_flows_256_64.h5` (~64 MB)
---
## 🛠️ Data Preparation & Pipelines
### Preprocessing
* **Normalization:** All vector field values are normalized to the range $[-1, 1]$.
* **Data Split:** 90% for training and 10% for testing.
### Reconstruction Experiments
For our sparse streamline reconstruction experiments, we used the following seeding configurations:
* **Synthetic & Red Sea:** Evaluated using **12 randomly seeded streamlines**.
* **CFD (Kolmogorov):** Evaluated using **20 randomly seeded streamlines** to better capture the chaotic flow features.
---
## 📦 File Structure
```text
d:/datasets_repo/
├── synthetic.h5 # Synthetic flow data (41,000 samples)
├── ocean_flows.h5 # Red Sea oceanographic data (3,800 samples)
└── jax_cfd_flows_256_64.h5 # CFD Kolmogorov flow data (3,200 samples)
```
## 📜 Usage
The datasets are provided in HDF5 format (`.h5`).
```python
import h5py
# Example: Loading synthetic data
with h5py.File('synthetic.h5', 'r') as f:
data = f['vector_fields'][:]
print(f"Loaded {data.shape[0]} samples with shape {data.shape[1:]}")
```
提供机构:
Fyrean
搜集汇总
数据集介绍

构建方式
在流场可视化与流体动力学领域,高质量数据集的构建是推动算法创新的基石。VFSynth25数据集的构建过程体现了多源数据融合的科学思路,其包含三类具有不同物理复杂度的二维矢量场数据。合成流数据集通过参数化模型生成,基于Berenjkoub等人的工作,采用三种基础形状矩阵与Vatistas速度剖面公式,系统性地产生了四万一千个分辨率为128×128的矢量场,专注于涡旋与鞍点等基本拓扑特征的建模。红海海洋数据源自MIT海洋通用环流模型的仿真输出,覆盖特定地理区域,提取了约三千八百个不同深度与时间步长的水平流速切片,捕捉了稳态涡旋结构与边界流等典型海洋学特征。计算流体动力学数据则基于二维Kolmogorov流动模拟,在雷诺数为1000的条件下求解不可压缩Navier-Stokes方程,生成了三千二百个包含复杂湍流结构的高分辨率矢量场。所有数据均经过归一化处理,并按照九比一的比例划分为训练集与测试集,为扩散模型框架提供了系统化的评估基准。
使用方法
为便于研究人员使用,数据集以HDF5格式提供,该格式高效支持大规模数值数据的存储与读取。用户可通过标准的h5py库直接加载数据文件,例如读取合成流数据时,可访问‘vector_fields’数据集以获取全部样本。数据已预先分割为训练与测试子集,研究者可据此直接进行模型训练与性能评估。在具体应用中,该数据集主要用于训练和测试基于扩散模型的矢量场合成框架,特别针对从稀疏、非均匀采样的流线中重建完整矢量场这一任务。通过对比模型在合成、海洋与湍流三类数据上的重建效果,能够系统评估算法对于基本拓扑特征、真实物理模式以及复杂湍流结构的捕捉与泛化能力,从而推动流场可视化与流体动力学分析技术的进步。
背景与挑战
背景概述
在流场可视化与计算流体动力学领域,高保真二维矢量场的重建一直是一项核心研究课题。VFSynth25数据集由Nguyen K. Phan等人于2025年创建,并随其发表于IEEE VIS会议的论文《Vector Field Synthesis with Sparse Streamlines Using Diffusion Model》一同发布。该数据集旨在支持基于扩散模型的合成框架,解决从稀疏、非均匀采样的流线中重建高精度矢量场的难题。通过整合合成流场、红海海洋学数据以及计算流体动力学模拟数据,VFSynth25为评估复杂拓扑特征与真实物理场景下的重建算法提供了标准化基准,显著推动了流场可视化与流体动力学分析方法的进步。
当前挑战
VFSynth25数据集所针对的核心领域挑战在于从极稀疏的流线输入中精确重建完整的二维矢量场,这一逆问题在流场可视化中因信息高度欠定而极具难度。具体而言,数据集需处理合成流场中的涡旋与鞍点等基础拓扑结构、海洋数据中的稳态涡流与边界流等时空依赖模式,以及高雷诺数湍流模拟中的混沌特征,每种场景均对模型的泛化与鲁棒性提出严峻考验。在构建过程中,挑战包括如何通过参数化模型生成大规模且多样化的合成流场以覆盖广泛拓扑形态,如何从MITgcm等复杂仿真中提取并规范化真实海洋数据以保持物理一致性,以及如何为高度湍流的CFD数据设计恰当的流线采样策略以有效捕获其动态特性。
常用场景
经典使用场景
在流场可视化与流体动力学领域,VFSynth25数据集为基于稀疏流线的高保真二维矢量场重建提供了基准测试平台。该数据集通过合成流场、红海海洋数据及计算流体动力学数据,模拟了从基础拓扑特征到复杂湍流结构的多样化场景,经典应用场景聚焦于评估扩散模型等生成式方法在有限观测条件下重构完整流场的能力。研究人员常利用其进行流线插值、场拓扑分析及不确定性量化,以验证算法在物理一致性、细节保留与计算效率方面的表现。
解决学术问题
VFSynth25数据集有效应对了流场重建中数据稀疏性与非均匀采样的核心挑战,为相关学术研究提供了标准化评估框架。它解决了传统方法在复杂流体模式(如涡旋、鞍点及湍流结构)重建中保真度不足的问题,并支持对生成模型的泛化能力进行系统验证。该数据集的意义在于推动了跨学科研究,将扩散模型等先进生成技术引入流体可视化领域,促进了高维流场数据高效合成与解释的理论进展。
实际应用
在实际工程与科学应用中,VFSynth25数据集支持海洋流场监测、气象预测及工业流体仿真等场景。例如,基于红海海洋数据,可辅助重建海洋环流模式,优化航运路线与资源勘探策略;而计算流体动力学数据则能用于涡轮机械设计或空气动力学分析,通过稀疏流线快速推断全场特性,降低高分辨率模拟的计算成本。这些应用体现了数据集在提升流体系统可视化分析与决策支持方面的实用价值。
数据集最近研究
最新研究方向
在流场可视化与流体动力学领域,VFSynth25数据集正推动基于扩散模型的稀疏流线重建研究迈向新高度。该数据集整合了合成流场、红海海洋数据及计算流体动力学模拟,为验证生成模型在复杂拓扑结构和高湍流环境下的泛化能力提供了基准。前沿探索聚焦于利用深度学习从极稀疏观测中恢复高保真向量场,这不仅提升了流场分析的效率,更在气象预测、海洋环流模拟等实际应用中展现出巨大潜力,标志着数据驱动流体力学研究向智能化、高精度方向的重要演进。
以上内容由遇见数据集搜集并总结生成



