gwBenchmarks

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/tousifislam/gwBenchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

gwBenchmarks是一个用于评估基于LLM的引力波（GW）建模的基准测试套件，包含多个基准测试任务，如波形基准、残余基准、动力学基准等。数据集存储在Hugging Face上，每个基准测试目录包含训练和验证数据文件、描述文件、脚本和参考图。

gwBenchmarks is a benchmark suite for evaluating LLM-based gravitational wave (GW) modeling, which includes multiple benchmark tasks such as waveform benchmark, residual benchmark, dynamical benchmark and more. The dataset is hosted on Hugging Face, and each benchmark directory contains training and validation data files, description files, scripts and reference plots.

创建时间：

2026-04-30

原始信息汇总

gwBenchmarks 数据集概述

gwBenchmarks 是一个用于评估基于大语言模型（LLM）的引力波（GW）建模的基准测试套件，所有任务均采用完全数值化、物理驱动的指标，避免人工评分，依赖引力波天文学中的标准损失函数。

基准测试任务

任务名称	输入	输出	损失函数
1. Waveform Bench（协同进动 h₂₂）	质量比 q、自旋向量 chi1/chi2、时间网格 t_i	Re(h22(t_i)), Im(h22(t_i))	总质量 [40,80,120,160,200] M☉ 上的平均频域失配
2. Remnant Bench（反冲速度）	质量比 q、自旋向量 chi1/chi2	反冲速度大小 v_k	NRMSE(v_k)
3. Dynamics Bench（偏心自旋轨道动力学）	质量比 q、自旋 chi1/chi2、初始条件 e0/x0、时间网格 t_i	后牛顿频率参数 x(t_i)	x(t) 上的逐点 RMS 相对误差
4. Ringdown Bench（准正规模）	最终自旋 chi_f、模式指数 (l,m,n)	omega_real, omega_imag	Re(ω) 和 Im(ω) 相对误差的平均值
5. Analytic Bench（非自旋双黑洞，q∈[1,20]）	质量比 q、时间网格 t_i	Re(h22(t_i)), Im(h22(t_i))	总质量 [40,80,120,160,200] M☉ 上的平均频域失配
6. Validity Bench（NRHybSur3dq8 外推）	质量比 q、自旋 chi1/chi2	预测失配 M̂	RMSE(log M̂, log M*)
7. Template Bank Bench（频域模板覆盖）	公共波形参数池 [m1,m2,s1z,s2z]	有序银行行 [m1,m2,s1z,s2z,phi_ref]	达到 50% 隐藏测试覆盖（匹配度≥0.97）的最小银行前缀
8. New Physics Bench（RG-tail 旋近）	arXiv:2602.08833 中的物理公式	h_of_f(f, Mc, eta, dL, lambda_RG, ...) 实现	144 个测试用例上的平均频域失配（4 Mc × 4 eta × 3 dL × 3 lambda_RG）

频域失配计算

通过 PyCBC 计算，使用 aLIGO aLIGOZeroDetHighPower 功率谱密度（PSD），在时间和相位偏移上最大化：

mismatch = 1 - max_{t,phi} <h_pred, h_ref> / sqrt(<h_pred, h_pred> <h_ref, h_ref>)

频率范围：f_low = 15 Hz, f_high = 990 Hz。

数据集分布

二进制数据集文件因大小限制不存储在仓库中，托管于 Hugging Face：🤗 GWagents/gwBenchmarks

每个基准目录下包含 datasets/：

README.md — 数据集描述、参数范围、训练/验证划分
scripts/ — 数据处理和绘图脚本
plots/ — 数据集参考图

基准任务	训练集	验证集
waveform	`waveform_training.h5`	`waveform_validation.h5`
remnant	`remnant_training.h5`	`remnant_validation.h5`
dynamics	`dynamics_training.h5`	`dynamics_validation.h5`
ringdown	`ringdown_training.h5`	`ringdown_validation.h5`
analytic	`analytic_training.h5`	`analytic_validation.h5`
validity	`validity_training.h5`	`validity_validation.h5`
template_bank	`bank_wf_params.npy` (+ grid/weights)	`bank_wf_params_test.npy`
new_physics	公式驱动，无训练集	参考在 `gwbenchmarks/rg_tail_reference.py`

规则

评估时禁止暴力优化，所有输出必须是模型直接预测结果。
指标完全数值化且可重复。

项目结构

gwBenchmarks/ ├── gwbenchmarks/ │ ├── init.py │ ├── metrics.py # 频域失配、RMS相对误差、NRMSE │ ├── runner.py # 基准测试运行器 │ ├── rg_tail_reference.py # New Physics Bench参考波形 │ └── benchmarks/ │ ├── base.py # 抽象基准类 │ ├── waveform.py │ ├── remnant.py │ ├── dynamics.py │ ├── ringdown.py │ ├── analytic.py │ ├── validity.py │ ├── template_bank.py │ └── new_physics.py ├── configs/ # 每个基准的YAML配置 └── datasets/ # README、脚本、绘图（二进制数据在Hugging Face）

搜集汇总

数据集介绍

构建方式

gwBenchmarks数据集专为评估基于大语言模型的引力波建模性能而设计，其核心构建理念在于摒弃主观评分，完全依赖引力波天文学中公认的数值损失函数。数据集包含八个各有侧重的基准任务：波形基准（Waveform Bench）要求模型根据黑洞质量比、自旋矢量及时间网格预测引力波应变实部与虚部，并通过频率域失配度评估；残余速度基准（Remnant Bench）关注并合后反冲速度的预测，采用归一化均方根误差；动力学基准（Dynamics Bench）面向偏心自旋轨道动力学，度量后牛顿频率参数的点态相对误差；振铃基准（Ringdown Bench）针对准正则模的频率与阻尼时间；解析基准（Analytic Bench）为无自旋双黑洞系统提供波形比对；有效性基准（Validity Bench）检测模型对数值相对论代理模型的外推能力。模板库基准（Template Bank Bench）评估匹配滤波模板集的最优覆盖性能，而新物理基准（New Physics Bench）则直接考验模型根据后牛顿公式结合辐射尾修正实现频域波形生成的能力。所有数据集均托管在Hugging Face上，基准目录下包含详细的数据描述、训练/验证划分脚本及参考图。

特点

该数据集最鲜明的特色在于其完全数值化、物理驱动的评估体系。每个基准都基于引力波数据处理中不可约简的标准量——频率域失配度、归一化均方根误差和点态相对误差——使得模型性能的比较具有天文学意义上的可重复性。评估过程严禁在测试时使用暴力优化或搜索，强制模型输出纯粹的预测结果，从而真实反映模型对引力波物理内在规律的掌握程度。此外，gwBenchmarks覆盖了从波形生成、并合残余、轨道动力学到新物理探索的完整链条，既有基于数值相对论数据拟合的仿真任务，也有要求从公式出发直接编程实现的挑战，为不同层次的引力波建模能力提供了立体化的测试空间。数据集规模适中，但每个基准精心设计了参数空间和损失函数，确保了评估的区分度和物理相关性。

使用方法

使用gwBenchmarks需要先通过pip安装基础包，然后加载相应的基准模块。以波形基准为例，用户可以创建WaveformBench实例并通过配置文件指定参数，随后调用evaluate方法传入模型预测值、真实标签和运行时信息即可获得损失值。每个基准的数据文件以HDF5或NumPy格式存储在Hugging Face上，用户需提前下载。对于新物理基准，模型需要自行根据提供的后牛顿公式编写频域波形函数，再与参考实现比对失配度。评估过程中依赖PyCBC库计算频率域失配度，涉及aLIGO探测器功率谱密度、15至990赫兹的频带及时间相位最大化。数据集结构清晰，每个基准目录包含独立的说明文档、数据处理脚本和训练集划分，方便研究人员快速上手并复现实验结果。

背景与挑战

背景概述

gwBenchmarks是一个由Tousif Islam等研究者于近期创建的基准测试套件，旨在评估基于大语言模型的引力波建模能力。该数据集由GWagents团队主导开发，核心研究问题在于探索如何利用完全数值化、物理驱动的指标来量化语言模型在引力波波形预测、双星剩余参数估计、轨道动力学模拟、准正规模分析等任务中的表现。gwBenchmarks涵盖了八项具体基准，包括波形、残余速度、动力学、环降、解析、有效性、模板库及新物理场景，每一项均采用天体物理学中标准的损失函数（如频域失配度、归一化均方根误差），彻底摒弃了主观评分。该套件的影响力在于它为人工智能与引力波天文学的交叉领域提供了首个可复现、客观的评估框架，有望推动机器学习在天体物理模拟中的可信应用。

当前挑战

gwBenchmarks面临的核心挑战来自多维度。首先，在领域问题层面，引力波建模本身高度复杂，涉及强场广义相对论、后牛顿近似、数值相对论及超高精度波形生成，而语言模型需在缺乏先验物理知识的情况下从输入参数直接输出精确的复值波形或物理量，这对模型的数值外推能力和物理一致性构成严峻考验。其次，在构建过程中，数据集遭遇两大困难：一是二进制数据文件因体积庞大无法直接存入仓库，需通过Hugging Face平台托管，增加了分发与访问的复杂度；二是新物理基准依赖从arXiv文献中解析的远距离修正公式，要求代理不仅能复现标准理论，还需实现超越广义相对论的波形，这对数据集的标准化、跨学科验证及避免过拟合提出了极高要求。

常用场景

经典使用场景

在引力波天文学与人工智能的交叉领域，gwBenchmarks数据集作为一套专为评估基于大语言模型的引力波建模能力而设计的基准套件，其核心应用场景在于系统性地检验神经网络能否精确复现引力波物理学中的关键数值预测任务。该数据集涵盖波形生成、残骸性质反演、动力学演化、准正规模分析等八项具有明确物理意义的子任务，每一项均通过频域失配度、归一化均方根误差等引力波社区公认的数值指标进行评分，从而避免了传统人工评判的主观性，为AI驱动的引力波研究提供了一个标准化、可复现的评估平台。

解决学术问题

gwBenchmarks的推出有效填补了引力波机器学习领域缺乏统一的、物理驱动的评估基准的空白。在学术层面，它解决了此前研究难以公平比较不同模型在真实引力波建模任务上表现的问题，尤其是针对波形预测的频域失配度、自旋轨道动力学的高精度逼近以及极端质量比下的解析延拓等挑战。通过引入完全基于引力波天文学标准损失函数的评估机制，该数据集促使研究者聚焦于提升模型的物理泛化能力，而非人工打分，从而推动了可解释性更强、鲁棒性更高的引力波AI模型的诞生，对深化引力波信号识别与参数估计研究具有里程碑式的意义。

衍生相关工作

gwBenchmarks的发布已在引力波与AI交叉领域催生了一系列衍生研究。受其启发，研究者开始探索基于Transformer架构的波形生成网络替代传统数值相对论模板的方法，并衍生出针对极端质量比旋近信号的专用基准测试集。此外，其“新物理基准”所采用的公式驱动评估范式，促使学界开发出能自主推导并实现后牛顿修正项的AI系统，相关成果已扩展至更大参数空间的引力波信号模拟。模板库基准则直接影响了台址数据中心的存储策略优化，衍生出基于强化学习的波形覆盖搜索算法，显著降低了在线匹配滤波的计算成本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集