Th229-ScanBench
收藏github2026-05-08 更新2026-04-18 收录
下载链接:
https://github.com/nurkyzaz/th229-scanbench
下载链接
链接失效反馈官方服务:
资源简介:
Th229-ScanBench是一个用于检测已发布的JILA Thorium-229扫描级频率记录中注入的时变频率信号的数据集和基准测试包。主要基准测试包括:数据源为已发布的JILA扫描级频率记录;主要任务为检测添加的正弦频率调制的二进制检测;主系列为55个温度校正的峰值b测量;默认的null模型为具有X2异常值分量的晶体特定高斯散射;峰值c仅作为可选/探索性元数据保留;扫描内的pkl文件:为未来工作编目,未在主要基准测试中使用。
Th229-ScanBench is a dataset and benchmark suite for detecting injected time-varying frequency signals within published JILA Thorium-229 scan-level frequency records. Its core benchmark details are as follows: the data source is published JILA scan-level frequency records; the primary task is binary detection of added sinusoidal frequency modulation; the main series includes 55 temperature-corrected peak-b measurements; the default null model is crystal-specific Gaussian scattering with X2 outlier components; peak c is retained solely as optional or exploratory metadata; and PKL files within the scan datasets are cataloged for future research and not used in the primary benchmark.
创建时间:
2026-04-15
原始信息汇总
Th229-ScanBench 数据集概述
数据集简介
Th229-ScanBench 是一个用于检测已发布的JILA钍-229扫描级频率记录中注入的时变频移信号的数据集和基准测试包。
主要基准测试范围
- 数据来源:已发布的JILA扫描级频率记录。
- 主要任务:对添加的正弦频率调制进行二元检测。
- 主要序列:55个经过温度校正的峰值b测量值。
- 默认零模型:晶体特定的高斯散射与X2离群值分量。
- 峰值c:仅作为可选/探索性元数据保留。
- 扫描内pkl文件:为未来工作编目,未在主要基准测试中使用。
数据规模与划分
- 原始CSV行数:428
- 唯一洛伦兹扫描键数:73
- 字面README子集行数:72
- 规范发布子集行数:73
- 主要峰值b行数:55
- 可选峰值b+c行数:73
- 严格质量控制行数(
chisq_red <= 10):41 - 主要基准测试示例数:6336
- 仅测试预测行数:1320
72与73行数的核对记录于 results/tables/subset_reconciliation.md 和 results/tables/subset_reconciliation_scan_keys.csv。
固定数据划分
| 划分 | 标签 | 数量 |
|---|---|---|
| 训练 | 零信号 | 1848 |
| 训练 | 信号 | 1848 |
| 验证 | 零信号 | 660 |
| 验证 | 信号 | 660 |
| 测试 | 零信号 | 660 |
| 测试 | 信号 | 660 |
划分通过每个周期-幅度单元内的相位索引固定。
基准方法
- 加权谐波回归。
- 广义Lomb-Scargle周期图。
- 具有晶体特定抖动的分层正弦模型。
- 基于周期图和汇总特征的随机森林。
随机森林基线用于表明基准测试可用于通用机器学习方法,但目前最稳健的安全方法仍然是分层正弦模型。
关键文件与输出
规范数据文件
data/processed/canonical_published_subset.csvdata/processed/primary_peak_b.csvdata/processed/secondary_peaks_bc.csvdata/processed/strict_qc_subset.csv
基准测试中间文件
data/interim/benchmark_catalog.csvdata/interim/benchmark_arrays.npz
结果表格
results/tables/baseline_comparison_with_rf.csvresults/tables/final_representative_frequency_baseline_table_with_rf.csvresults/tables/a95_vs_frequency_with_uncertainty.csvresults/tables/observed_series_false_alarm_behavior.csvresults/tables/subset_reconciliation_scan_keys.csv
结果文件与图表
results/rf_baseline_results.jsonresults/figures/final_peak_b_residuals_over_time_by_crystal.pngresults/figures/final_auc_heatmap_with_a95_contour.pngresults/figures/final_a95_vs_frequency_with_uncertainty.png
重要说明
- 该基准测试是一个注入与恢复任务,并非对观测到的信号进行声明。
- 在选定的零模型下,仅包含X2分量的观测残差仍未完美校准;这被视为散射/模型失配。
- A95区间仅量化验证阈值和相位重采样变异,而非完整的实验不确定性。
- 峰值c和扫描内线型数据仍属于未来工作分支。
许可证
- 此仓库中的代码根据MIT许可证发布。
- 整理的JILA衍生数据遵循上游Ooi等人的CC BY 4.0条款。
搜集汇总
数据集介绍

构建方式
在原子钟频率稳定性研究领域,Th229-ScanBench数据集以JILA实验室发布的钍-229扫描级频率记录为基础构建。该数据集通过系统化处理原始扫描数据,提取了55个经温度校正的峰值b测量序列作为核心分析对象。构建过程中,研究人员采用了晶体特异性高斯散射结合X2异常值分量的默认零模型,并生成了包含6336个主要基准示例的合成数据集,其中注入了正弦频率调制信号以模拟时变频率特征。数据集的划分依据相位索引在周期-幅度单元内固定,确保了训练、验证与测试集的可重复性。
特点
Th229-ScanBench数据集聚焦于窄域基准任务,专门用于检测注入的时变频率信号。其核心特征体现在严格的数据质量控制上,仅包含经过严格筛选的扫描级子集,并提供了从原始428行数据到73个唯一洛伦兹扫描密钥的完整追溯文档。数据集不仅提供了主峰值b序列,还保留了峰值c作为可选探索性元数据,同时包含了扫描内的pkl文件以供未来研究。该基准强调可复现性,所有数据划分与基准结果均通过固定结构保存,支持从经典谐波回归到随机森林等多种基线方法的性能评估。
使用方法
使用该数据集时,研究者可通过安装依赖库并运行基准脚本来完整复现分析流程。基准运行器集成了端到端的评估框架,支持执行加权谐波回归、广义Lomb-Scargle算法、分层正弦模型及随机森林等基线方法。用户既可运行全套基准测试与验证,也可单独调用随机森林基线进行对比实验。数据集提供的规范化处理文件与结果表格,使得频率残差分析、错误警报行为统计和性能指标比较变得系统化。需要注意的是,该基准本质上是信号注入与恢复任务,其结果需结合实验不确定性进行谨慎解读。
背景与挑战
背景概述
在原子钟与精密光谱学领域,钍-229核钟因其潜在的超高精度而备受瞩目,其频率稳定性研究是推动下一代时间标准的关键。Th229-ScanBench数据集应运而生,由JILA研究机构于2025年发布,旨在基于已公开的JILA钍-229扫描级频率记录,构建一个专注于检测注入时变频移信号的基准测试平台。该数据集的核心研究问题聚焦于二进制检测任务,即识别添加的正弦频率调制信号,通过对55个温度校正后的峰值b测量序列进行分析,为频率信号探测算法提供标准化评估框架,从而促进核钟频率稳定性的量化研究与模型验证,对原子物理学与计量学领域具有重要的参考价值。
当前挑战
Th229-ScanBench数据集所针对的领域挑战在于,钍-229核钟频率记录中微弱时变信号的可靠检测,这要求算法能够有效区分真实信号与仪器噪声及系统漂移,同时避免误报。在构建过程中,数据集面临多重技术挑战:首先,原始数据需经过严格的温度校正与质量控制,以消除环境干扰;其次,基准测试采用晶体特异性高斯散射与X2异常值组合作为默认零模型,但观测残差在校准上仍存在不完善,导致散射与模型失配问题;此外,数据子集的选择与协调,如72与73个扫描键之间的调和,需通过详细文档确保可追溯性;最后,基准测试仅限于注入-恢复任务,而非对实际观测信号的主张,其A95区间仅涵盖验证阈值与相位重采样变异,未能完全反映实验不确定性,这些因素共同构成了数据集在实用性与泛化能力上的局限。
常用场景
经典使用场景
在原子钟与精密测量物理领域,Th229-ScanBench数据集为检测时间变化频率信号提供了标准化的基准平台。其经典使用场景聚焦于对已发布的JILA钍-229扫描级频率记录进行分析,通过注入正弦频率调制信号,评估不同检测方法的性能。该数据集以55个温度校正后的峰值-b测量序列为核心,构建了严格的二元检测任务,旨在模拟真实实验中可能出现的微弱频率扰动,为算法验证与比较奠定基础。
实际应用
在实际应用中,Th229-ScanBench直接服务于下一代核钟的研发与优化。它可用于验证频率监测系统的可靠性,辅助识别实验数据中的潜在调制信号或系统误差。此外,该基准支持仪器校准与性能评估,帮助实验物理学家在复杂噪声背景下提取微弱频率变化,从而提升原子钟的频率再现性与长期稳定性,为高精度时间保持与导航系统提供技术支撑。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括加权谐波回归、广义Lomb-Scargle方法以及分层正弦模型结合晶体特定抖动的检测算法。随机森林基线进一步展示了通用机器学习方法在该基准上的适用性。这些工作不仅推动了频率信号检测算法的创新,还促进了噪声模型与统计校准技术的完善,为后续研究如峰值-c分析与扫描内线形数据挖掘奠定了基础。
以上内容由遇见数据集搜集并总结生成



