five

Th229-ScanBench

收藏
github2026-05-08 更新2026-04-18 收录
下载链接:
https://github.com/nurkyzaz/th229-scanbench
下载链接
链接失效反馈
官方服务:
资源简介:
Th229-ScanBench是一个用于检测已发布的JILA Thorium-229扫描级频率记录中注入的时变频率信号的数据集和基准测试包。主要基准测试包括:数据源为已发布的JILA扫描级频率记录;主要任务为检测添加的正弦频率调制的二进制检测;主系列为55个温度校正的峰值b测量;默认的null模型为具有X2异常值分量的晶体特定高斯散射;峰值c仅作为可选/探索性元数据保留;扫描内的pkl文件:为未来工作编目,未在主要基准测试中使用。

Th229-ScanBench is a dataset and benchmark suite for detecting injected time-varying frequency signals within published JILA Thorium-229 scan-level frequency records. Its core benchmark details are as follows: the data source is published JILA scan-level frequency records; the primary task is binary detection of added sinusoidal frequency modulation; the main series includes 55 temperature-corrected peak-b measurements; the default null model is crystal-specific Gaussian scattering with X2 outlier components; peak c is retained solely as optional or exploratory metadata; and PKL files within the scan datasets are cataloged for future research and not used in the primary benchmark.
创建时间:
2026-04-15
原始信息汇总

Th229-ScanBench 数据集概述

数据集简介

Th229-ScanBench 是一个用于检测已发布的JILA钍-229扫描级频率记录中注入的时变频移信号的数据集和基准测试包。

主要基准测试范围

  • 数据来源:已发布的JILA扫描级频率记录。
  • 主要任务:对添加的正弦频率调制进行二元检测。
  • 主要序列:55个经过温度校正的峰值b测量值。
  • 默认零模型:晶体特定的高斯散射与X2离群值分量。
  • 峰值c:仅作为可选/探索性元数据保留。
  • 扫描内pkl文件:为未来工作编目,未在主要基准测试中使用。

数据规模与划分

  • 原始CSV行数:428
  • 唯一洛伦兹扫描键数:73
  • 字面README子集行数:72
  • 规范发布子集行数:73
  • 主要峰值b行数:55
  • 可选峰值b+c行数:73
  • 严格质量控制行数chisq_red <= 10):41
  • 主要基准测试示例数:6336
  • 仅测试预测行数:1320

72与73行数的核对记录于 results/tables/subset_reconciliation.mdresults/tables/subset_reconciliation_scan_keys.csv

固定数据划分

划分 标签 数量
训练 零信号 1848
训练 信号 1848
验证 零信号 660
验证 信号 660
测试 零信号 660
测试 信号 660

划分通过每个周期-幅度单元内的相位索引固定。

基准方法

  • 加权谐波回归。
  • 广义Lomb-Scargle周期图。
  • 具有晶体特定抖动的分层正弦模型。
  • 基于周期图和汇总特征的随机森林。

随机森林基线用于表明基准测试可用于通用机器学习方法,但目前最稳健的安全方法仍然是分层正弦模型。

关键文件与输出

规范数据文件

  • data/processed/canonical_published_subset.csv
  • data/processed/primary_peak_b.csv
  • data/processed/secondary_peaks_bc.csv
  • data/processed/strict_qc_subset.csv

基准测试中间文件

  • data/interim/benchmark_catalog.csv
  • data/interim/benchmark_arrays.npz

结果表格

  • results/tables/baseline_comparison_with_rf.csv
  • results/tables/final_representative_frequency_baseline_table_with_rf.csv
  • results/tables/a95_vs_frequency_with_uncertainty.csv
  • results/tables/observed_series_false_alarm_behavior.csv
  • results/tables/subset_reconciliation_scan_keys.csv

结果文件与图表

  • results/rf_baseline_results.json
  • results/figures/final_peak_b_residuals_over_time_by_crystal.png
  • results/figures/final_auc_heatmap_with_a95_contour.png
  • results/figures/final_a95_vs_frequency_with_uncertainty.png

重要说明

  • 该基准测试是一个注入与恢复任务,并非对观测到的信号进行声明。
  • 在选定的零模型下,仅包含X2分量的观测残差仍未完美校准;这被视为散射/模型失配。
  • A95区间仅量化验证阈值和相位重采样变异,而非完整的实验不确定性。
  • 峰值c和扫描内线型数据仍属于未来工作分支。

许可证

  • 此仓库中的代码根据MIT许可证发布。
  • 整理的JILA衍生数据遵循上游Ooi等人的CC BY 4.0条款。
搜集汇总
数据集介绍
main_image_url
构建方式
在原子钟频率稳定性研究领域,Th229-ScanBench数据集以JILA实验室发布的钍-229扫描级频率记录为基础构建。该数据集通过系统化处理原始扫描数据,提取了55个经温度校正的峰值b测量序列作为核心分析对象。构建过程中,研究人员采用了晶体特异性高斯散射结合X2异常值分量的默认零模型,并生成了包含6336个主要基准示例的合成数据集,其中注入了正弦频率调制信号以模拟时变频率特征。数据集的划分依据相位索引在周期-幅度单元内固定,确保了训练、验证与测试集的可重复性。
特点
Th229-ScanBench数据集聚焦于窄域基准任务,专门用于检测注入的时变频率信号。其核心特征体现在严格的数据质量控制上,仅包含经过严格筛选的扫描级子集,并提供了从原始428行数据到73个唯一洛伦兹扫描密钥的完整追溯文档。数据集不仅提供了主峰值b序列,还保留了峰值c作为可选探索性元数据,同时包含了扫描内的pkl文件以供未来研究。该基准强调可复现性,所有数据划分与基准结果均通过固定结构保存,支持从经典谐波回归到随机森林等多种基线方法的性能评估。
使用方法
使用该数据集时,研究者可通过安装依赖库并运行基准脚本来完整复现分析流程。基准运行器集成了端到端的评估框架,支持执行加权谐波回归、广义Lomb-Scargle算法、分层正弦模型及随机森林等基线方法。用户既可运行全套基准测试与验证,也可单独调用随机森林基线进行对比实验。数据集提供的规范化处理文件与结果表格,使得频率残差分析、错误警报行为统计和性能指标比较变得系统化。需要注意的是,该基准本质上是信号注入与恢复任务,其结果需结合实验不确定性进行谨慎解读。
背景与挑战
背景概述
在原子钟与精密光谱学领域,钍-229核钟因其潜在的超高精度而备受瞩目,其频率稳定性研究是推动下一代时间标准的关键。Th229-ScanBench数据集应运而生,由JILA研究机构于2025年发布,旨在基于已公开的JILA钍-229扫描级频率记录,构建一个专注于检测注入时变频移信号的基准测试平台。该数据集的核心研究问题聚焦于二进制检测任务,即识别添加的正弦频率调制信号,通过对55个温度校正后的峰值b测量序列进行分析,为频率信号探测算法提供标准化评估框架,从而促进核钟频率稳定性的量化研究与模型验证,对原子物理学与计量学领域具有重要的参考价值。
当前挑战
Th229-ScanBench数据集所针对的领域挑战在于,钍-229核钟频率记录中微弱时变信号的可靠检测,这要求算法能够有效区分真实信号与仪器噪声及系统漂移,同时避免误报。在构建过程中,数据集面临多重技术挑战:首先,原始数据需经过严格的温度校正与质量控制,以消除环境干扰;其次,基准测试采用晶体特异性高斯散射与X2异常值组合作为默认零模型,但观测残差在校准上仍存在不完善,导致散射与模型失配问题;此外,数据子集的选择与协调,如72与73个扫描键之间的调和,需通过详细文档确保可追溯性;最后,基准测试仅限于注入-恢复任务,而非对实际观测信号的主张,其A95区间仅涵盖验证阈值与相位重采样变异,未能完全反映实验不确定性,这些因素共同构成了数据集在实用性与泛化能力上的局限。
常用场景
经典使用场景
在原子钟与精密测量物理领域,Th229-ScanBench数据集为检测时间变化频率信号提供了标准化的基准平台。其经典使用场景聚焦于对已发布的JILA钍-229扫描级频率记录进行分析,通过注入正弦频率调制信号,评估不同检测方法的性能。该数据集以55个温度校正后的峰值-b测量序列为核心,构建了严格的二元检测任务,旨在模拟真实实验中可能出现的微弱频率扰动,为算法验证与比较奠定基础。
实际应用
在实际应用中,Th229-ScanBench直接服务于下一代核钟的研发与优化。它可用于验证频率监测系统的可靠性,辅助识别实验数据中的潜在调制信号或系统误差。此外,该基准支持仪器校准与性能评估,帮助实验物理学家在复杂噪声背景下提取微弱频率变化,从而提升原子钟的频率再现性与长期稳定性,为高精度时间保持与导航系统提供技术支撑。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括加权谐波回归、广义Lomb-Scargle方法以及分层正弦模型结合晶体特定抖动的检测算法。随机森林基线进一步展示了通用机器学习方法在该基准上的适用性。这些工作不仅推动了频率信号检测算法的创新,还促进了噪声模型与统计校准技术的完善,为后续研究如峰值-c分析与扫描内线形数据挖掘奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作