Th229-ScanBench

github2026-05-08 更新2026-04-18 收录

下载链接：

https://github.com/nurkyzaz/th229-scanbench

下载链接

链接失效反馈

官方服务：

资源简介：

Th229-ScanBench是一个用于检测已发布的JILA Thorium-229扫描级频率记录中注入的时变频率信号的数据集和基准测试包。主要基准测试包括：数据源为已发布的JILA扫描级频率记录；主要任务为检测添加的正弦频率调制的二进制检测；主系列为55个温度校正的峰值b测量；默认的null模型为具有X2异常值分量的晶体特定高斯散射；峰值c仅作为可选/探索性元数据保留；扫描内的pkl文件：为未来工作编目，未在主要基准测试中使用。

Th229-ScanBench is a dataset and benchmark suite for detecting injected time-varying frequency signals within published JILA Thorium-229 scan-level frequency records. Its core benchmark details are as follows: the data source is published JILA scan-level frequency records; the primary task is binary detection of added sinusoidal frequency modulation; the main series includes 55 temperature-corrected peak-b measurements; the default null model is crystal-specific Gaussian scattering with X2 outlier components; peak c is retained solely as optional or exploratory metadata; and PKL files within the scan datasets are cataloged for future research and not used in the primary benchmark.

创建时间：

2026-04-15

原始信息汇总

Th229-ScanBench 数据集概述

数据集简介

Th229-ScanBench 是一个用于检测已发布的JILA钍-229扫描级频率记录中注入的时变频移信号的数据集和基准测试包。

主要基准测试范围

数据来源：已发布的JILA扫描级频率记录。
主要任务：对添加的正弦频率调制进行二元检测。
主要序列：55个经过温度校正的峰值b测量值。
默认零模型：晶体特定的高斯散射与X2离群值分量。
峰值c：仅作为可选/探索性元数据保留。
扫描内pkl文件：为未来工作编目，未在主要基准测试中使用。

数据规模与划分

原始CSV行数：428
唯一洛伦兹扫描键数：73
字面README子集行数：72
规范发布子集行数：73
主要峰值b行数：55
可选峰值b+c行数：73
严格质量控制行数（chisq_red <= 10）：41
主要基准测试示例数：6336
仅测试预测行数：1320

72与73行数的核对记录于 results/tables/subset_reconciliation.md 和 results/tables/subset_reconciliation_scan_keys.csv。

固定数据划分

划分	标签	数量
训练	零信号	1848
训练	信号	1848
验证	零信号	660
验证	信号	660
测试	零信号	660
测试	信号	660

划分通过每个周期-幅度单元内的相位索引固定。

基准方法

加权谐波回归。
广义Lomb-Scargle周期图。
具有晶体特定抖动的分层正弦模型。
基于周期图和汇总特征的随机森林。

随机森林基线用于表明基准测试可用于通用机器学习方法，但目前最稳健的安全方法仍然是分层正弦模型。

关键文件与输出

规范数据文件

data/processed/canonical_published_subset.csv
data/processed/primary_peak_b.csv
data/processed/secondary_peaks_bc.csv
data/processed/strict_qc_subset.csv

基准测试中间文件

data/interim/benchmark_catalog.csv
data/interim/benchmark_arrays.npz

结果表格

results/tables/baseline_comparison_with_rf.csv
results/tables/final_representative_frequency_baseline_table_with_rf.csv
results/tables/a95_vs_frequency_with_uncertainty.csv
results/tables/observed_series_false_alarm_behavior.csv
results/tables/subset_reconciliation_scan_keys.csv

结果文件与图表

results/rf_baseline_results.json
results/figures/final_peak_b_residuals_over_time_by_crystal.png
results/figures/final_auc_heatmap_with_a95_contour.png
results/figures/final_a95_vs_frequency_with_uncertainty.png

重要说明

该基准测试是一个注入与恢复任务，并非对观测到的信号进行声明。
在选定的零模型下，仅包含X2分量的观测残差仍未完美校准；这被视为散射/模型失配。
A95区间仅量化验证阈值和相位重采样变异，而非完整的实验不确定性。
峰值c和扫描内线型数据仍属于未来工作分支。

许可证

此仓库中的代码根据MIT许可证发布。
整理的JILA衍生数据遵循上游Ooi等人的CC BY 4.0条款。

搜集汇总

数据集介绍

构建方式

在原子钟频率稳定性研究领域，Th229-ScanBench数据集以JILA实验室发布的钍-229扫描级频率记录为基础构建。该数据集通过系统化处理原始扫描数据，提取了55个经温度校正的峰值b测量序列作为核心分析对象。构建过程中，研究人员采用了晶体特异性高斯散射结合X2异常值分量的默认零模型，并生成了包含6336个主要基准示例的合成数据集，其中注入了正弦频率调制信号以模拟时变频率特征。数据集的划分依据相位索引在周期-幅度单元内固定，确保了训练、验证与测试集的可重复性。

特点

Th229-ScanBench数据集聚焦于窄域基准任务，专门用于检测注入的时变频率信号。其核心特征体现在严格的数据质量控制上，仅包含经过严格筛选的扫描级子集，并提供了从原始428行数据到73个唯一洛伦兹扫描密钥的完整追溯文档。数据集不仅提供了主峰值b序列，还保留了峰值c作为可选探索性元数据，同时包含了扫描内的pkl文件以供未来研究。该基准强调可复现性，所有数据划分与基准结果均通过固定结构保存，支持从经典谐波回归到随机森林等多种基线方法的性能评估。

使用方法

使用该数据集时，研究者可通过安装依赖库并运行基准脚本来完整复现分析流程。基准运行器集成了端到端的评估框架，支持执行加权谐波回归、广义Lomb-Scargle算法、分层正弦模型及随机森林等基线方法。用户既可运行全套基准测试与验证，也可单独调用随机森林基线进行对比实验。数据集提供的规范化处理文件与结果表格，使得频率残差分析、错误警报行为统计和性能指标比较变得系统化。需要注意的是，该基准本质上是信号注入与恢复任务，其结果需结合实验不确定性进行谨慎解读。

背景与挑战

背景概述

在原子钟与精密光谱学领域，钍-229核钟因其潜在的超高精度而备受瞩目，其频率稳定性研究是推动下一代时间标准的关键。Th229-ScanBench数据集应运而生，由JILA研究机构于2025年发布，旨在基于已公开的JILA钍-229扫描级频率记录，构建一个专注于检测注入时变频移信号的基准测试平台。该数据集的核心研究问题聚焦于二进制检测任务，即识别添加的正弦频率调制信号，通过对55个温度校正后的峰值b测量序列进行分析，为频率信号探测算法提供标准化评估框架，从而促进核钟频率稳定性的量化研究与模型验证，对原子物理学与计量学领域具有重要的参考价值。

当前挑战

Th229-ScanBench数据集所针对的领域挑战在于，钍-229核钟频率记录中微弱时变信号的可靠检测，这要求算法能够有效区分真实信号与仪器噪声及系统漂移，同时避免误报。在构建过程中，数据集面临多重技术挑战：首先，原始数据需经过严格的温度校正与质量控制，以消除环境干扰；其次，基准测试采用晶体特异性高斯散射与X2异常值组合作为默认零模型，但观测残差在校准上仍存在不完善，导致散射与模型失配问题；此外，数据子集的选择与协调，如72与73个扫描键之间的调和，需通过详细文档确保可追溯性；最后，基准测试仅限于注入-恢复任务，而非对实际观测信号的主张，其A95区间仅涵盖验证阈值与相位重采样变异，未能完全反映实验不确定性，这些因素共同构成了数据集在实用性与泛化能力上的局限。

常用场景

经典使用场景

在原子钟与精密测量物理领域，Th229-ScanBench数据集为检测时间变化频率信号提供了标准化的基准平台。其经典使用场景聚焦于对已发布的JILA钍-229扫描级频率记录进行分析，通过注入正弦频率调制信号，评估不同检测方法的性能。该数据集以55个温度校正后的峰值-b测量序列为核心，构建了严格的二元检测任务，旨在模拟真实实验中可能出现的微弱频率扰动，为算法验证与比较奠定基础。

实际应用

在实际应用中，Th229-ScanBench直接服务于下一代核钟的研发与优化。它可用于验证频率监测系统的可靠性，辅助识别实验数据中的潜在调制信号或系统误差。此外，该基准支持仪器校准与性能评估，帮助实验物理学家在复杂噪声背景下提取微弱频率变化，从而提升原子钟的频率再现性与长期稳定性，为高精度时间保持与导航系统提供技术支撑。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括加权谐波回归、广义Lomb-Scargle方法以及分层正弦模型结合晶体特定抖动的检测算法。随机森林基线进一步展示了通用机器学习方法在该基准上的适用性。这些工作不仅推动了频率信号检测算法的创新，还促进了噪声模型与统计校准技术的完善，为后续研究如峰值-c分析与扫描内线形数据挖掘奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集