TIDMAD

github2024-06-06 更新2024-06-09 收录

下载链接：

https://github.com/jessicafry/TIDMAD

下载链接

链接失效反馈

官方服务：

资源简介：

TIDMAD是首个来自暗物质物理实验的数据集和基准，提供超长时间序列数据和全面工具，使机器学习模型能够直接推进对暗物质的物理搜索。

TIDMAD is the first dataset and benchmark derived from dark matter physics experiments, offering ultra-long time series data and comprehensive tools that enable machine learning models to directly advance the physical search for dark matter.

创建时间：

2024-05-30

原始信息汇总

数据集概述

数据集名称

TIDMAD: TIme series dataset for discovering Dark Matter with Ai Denoising

数据集描述

TIDMAD是首个来自暗物质物理实验的数据集和基准，提供超长时序数据和全面的工具，使机器学习模型能够直接推进对暗物质的搜索。

数据集下载

数据集可通过提供的download_data.py脚本下载，该脚本支持多种参数配置，包括输出目录、缓存位置、训练和验证文件数量等。

数据集组成

文件总数：248个文件（若包含弱信号版本则为288个）
文件格式：所有文件均为HDF5格式
数据集分区：
1. 训练数据集：abra_training_00{##}.h5，##范围从00到19
2. 验证数据集：abra_validation_00{##}.h5，##范围从00到19
3. 科学数据集：abra_science_0{###}.h5，###范围从000到207

数据集使用

用户可通过一系列Python脚本进行数据下载、模型训练、推理、基准测试和科学数据处理，以生成暗物质搜索结果。

联系方式

如有疑问，请联系J. T. Fry（jtfry@mit.edu）。

搜集汇总

数据集介绍

构建方式

TIDMAD数据集的构建基于ABRACADABRA实验，该实验旨在通过超长时间序列数据搜索暗物质。数据集包含248个HDF5格式的文件，分为训练集、验证集和科学数据集。训练集和验证集包含模拟的暗物质信号，而科学数据集则用于实际的暗物质搜索。数据集的构建过程中，特别注意了信号的注入和硬件条件的限制，确保数据的真实性和可用性。

特点

TIDMAD数据集的显著特点在于其超长时间序列数据，每秒采集1000万样本，为暗物质搜索提供了丰富的数据资源。此外，数据集提供了弱信号版本，增加了去噪任务的难度，适合高级机器学习模型的训练。数据集还包含了详细的元数据和工具，支持用户进行模型训练、验证和科学数据处理。

使用方法

使用TIDMAD数据集，用户可以通过提供的`download_data.py`脚本下载数据，并使用`setup.py`设置环境。随后，用户可以训练深度学习模型，如FCNet、PUNet和Transformer，并通过`inference.py`和`benchmark.py`进行模型验证和性能评估。最终，用户可以利用`process_science_data.py`处理科学数据，生成去噪后的时间序列文件，并通过`brazilband.py`和`AxionPhoton_TIDMAD.ipynb`生成暗物质搜索结果和全球暗物质限制图。

背景与挑战

背景概述

TIDMAD数据集是首个源自暗物质物理实验的数据集和基准，旨在通过AI去噪技术推进暗物质的基本物理搜索。该数据集由ABRACADABRA实验生成，提供了超长时间序列数据和全面的工具，使机器学习模型能够直接促进暗物质的发现。TIDMAD数据集的创建标志着暗物质研究领域的一个重要里程碑，其核心研究问题是如何在超长时间序列数据中识别和去噪潜在的暗物质信号。该数据集的发布不仅为暗物质研究提供了新的工具和方法，还为机器学习在物理学中的应用开辟了新的途径。

当前挑战

TIDMAD数据集在构建过程中面临了多项挑战。首先，数据集包含了超长时间序列数据，这要求模型具有高度的计算能力和存储效率。其次，数据集中存在硬件条件导致的通道时间序列长度不一致问题，这增加了数据处理的复杂性。此外，数据集的弱信号版本增加了去噪任务的难度，因为信号强度仅为正常版本的五分之一。最后，数据集的下载和处理过程需要用户具备一定的技术背景和计算资源，这可能限制了数据集的广泛应用。

常用场景

经典使用场景

TIDMAD数据集在暗物质物理实验中扮演着至关重要的角色，其经典使用场景主要集中在利用机器学习模型对超长时间序列数据进行去噪处理。通过训练和验证数据集，研究人员可以开发和优化深度学习模型，如全连接网络（FCNet）、概率无监督网络（PUNet）和变换器（Transformer），以提高对暗物质信号的检测能力。这些模型在科学数据集上的应用，能够生成去噪后的时间序列文件，为暗物质搜索提供更为清晰的数据基础。

解决学术问题

TIDMAD数据集解决了暗物质物理实验中的一个关键学术问题，即如何从大量噪声中有效提取潜在的暗物质信号。通过提供超长时间序列数据和全面的工具，该数据集使得机器学习模型能够直接应用于暗物质搜索，从而推动了基础物理学的发展。这一突破不仅提升了实验数据的分析精度，还为未来的暗物质探测实验提供了宝贵的参考和基准。

衍生相关工作

TIDMAD数据集的发布催生了一系列相关经典工作，特别是在暗物质探测和机器学习交叉领域。例如，基于该数据集的研究已经开发出多种高效的深度学习模型，用于时间序列数据的去噪和信号提取。此外，该数据集还启发了对暗物质信号检测算法的改进，推动了相关领域的技术进步。这些衍生工作不仅丰富了暗物质物理学的研究手段，也为其他高能物理实验提供了宝贵的经验和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集