tokamark-dataset

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/UKAEA-IBM-STFC/tokamark-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TokaMark 是一个全面的基准测试数据集，旨在评估 AI 模型在 Mega Ampere Spherical Tokamak (MAST) 托卡马克装置上收集的真实实验数据上的性能。该数据集解决了当前聚变能源研究中缺乏经过整理、公开可用的数据集的问题。TokaMark 提供了多模态异质聚变数据的统一访问，包括格式、元数据、时间对齐和评估协议的标准化，以实现跨模型和跨任务的一致性比较。数据集包含 14 个任务，涵盖多种物理机制和诊断方法，并提供了一个基线模型以促进透明比较和验证。通过为聚变和 AI 科学社区建立统一的基准，TokaMark 旨在加速数据驱动的等离子体 AI 建模的进展，为实现可持续和稳定的聚变能源的广泛目标做出贡献。数据集、文档和工具完全开源，以鼓励社区的采用和贡献。

TokaMark is a comprehensive benchmark dataset designed to evaluate the performance of AI models on real experimental data collected from the Mega Ampere Spherical Tokamak (MAST) device. This dataset addresses the shortage of curated and publicly available datasets in current fusion energy research. TokaMark provides unified access to multi-modal and heterogeneous fusion data, including standardization of formats, metadata, time alignment, and evaluation protocols to enable consistent cross-model and cross-task comparisons. The dataset includes 14 tasks covering diverse physical mechanisms and diagnostic methods, and provides a baseline model to facilitate transparent comparison and validation. By establishing a unified benchmark for the fusion and AI science communities, TokaMark aims to accelerate advancements in data-driven plasma AI modeling and contribute to the broader goal of achieving sustainable and stable fusion energy. The dataset, documentation, and tools are fully open-source to encourage community adoption and contributions.

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

TokaMark数据集构建于兆安球形托卡马克实验装置的真实物理测量数据之上，通过系统化的数据整理流程，将多模态、异构的等离子体诊断信息进行统一整合。该数据集依托FAIR-MAST数据管理系统，对原始传感器读数进行了格式标准化、元数据对齐与时间同步处理，确保了数据的一致性与可追溯性。在此基础上，研究团队精心设计了涵盖14项不同物理机制与诊断手段的任务集合，为评估人工智能模型在复杂等离子体动力学预测中的表现提供了结构化基准。

使用方法

使用TokaMark数据集时，研究者可通过Hugging Face平台直接下载数据压缩包，并运行附带的解压脚本获取Zarr格式的训练与评估文件。数据集配套提供了完整的工具链与基准模型，支持用户在多任务框架下进行模型训练、验证与性能对比。为保障研究的严谨性，建议用户在发表成果时引用相关的原始论文与数据来源声明。该数据集的设计充分考虑了易用性与扩展性，鼓励社区在此基础上进行二次开发与任务拓展，共同推动人工智能在聚变能源领域的应用进程。

背景与挑战

背景概述

在核聚变能源研究领域，托卡马克装置作为实现可控热核聚变的关键设备，其等离子体行为的精确预测是反应堆设计与运行的核心科学问题。传统数值模拟方法受限于物理过程的极端复杂性与实验数据的稀疏性、噪声及不完备性，难以高效处理多模态异构数据。为应对这一挑战，由英国原子能管理局、IBM及科学与技术设施理事会等机构的研究团队于2026年共同推出了TokaMark数据集。该数据集基于兆安球形托卡马克（MAST）的真实实验数据构建，旨在为数据驱动的等离子体人工智能建模提供一个统一、开放的基准测试平台，推动聚变科学与人工智能交叉领域的可重复性研究，加速商业化聚变能源的进程。

当前挑战

TokaMark数据集致力于解决托卡马克等离子体动力学预测这一复杂领域问题，其核心挑战在于如何从稀疏、嘈杂且不完备的传感器读数中，准确建模高度非线性、多尺度的物理过程。具体而言，数据构建过程中面临多重困难：聚变实验数据通常分散于不同机构，格式异构且标注不一致，导致数据整合与对齐异常艰巨；同时，多模态诊断数据的时空同步与质量清洗需克服巨大工程复杂性。此外，为建立涵盖14种不同物理机制任务的标准化评估体系，需设计统一的元数据规范与评估协议，以确保跨模型、跨任务的公平比较，这对数据集的系统性与可扩展性提出了极高要求。

常用场景

经典使用场景

在聚变能源研究领域，托卡马克装置中高温等离子体的动态行为预测是核心挑战之一。TokaMark数据集为这一领域提供了标准化的基准测试平台，其经典使用场景聚焦于利用多模态异构数据，如磁诊断、光谱测量和热成像等传感器读数，训练和评估人工智能模型对等离子体参数的时序预测能力。研究人员通过该数据集能够系统性地比较不同机器学习方法在稀疏、噪声干扰下的预测精度，从而优化模型在复杂物理环境中的泛化性能。

解决学术问题

长期以来，聚变研究中的数据分散、格式不一且标注不一致，严重阻碍了AI方法的可复现性与公平比较。TokaMark通过统一数据访问、标准化元数据与评估协议，有效解决了这一学术瓶颈。它使得研究人员能够专注于模型创新，而非数据预处理，推动了数据驱动的等离子体物理建模从孤立实验向系统化科学范式的转变，为加速可控核聚变技术的理论突破提供了坚实的数据基础。

实际应用

在实际工程层面，TokaMark数据集直接服务于托卡马克装置的运行优化与安全控制。基于其构建的预测模型可实时监测等离子体不稳定性，如边缘局域模或破裂事件，从而辅助操作人员调整加热、加料等参数以维持稳态放电。这不仅提升了装置运行效率，还降低了实验风险，为未来聚变反应堆的自动化控制与智能决策系统开发提供了关键数据支撑。

数据集最近研究