five

dl4phys/top_tagging

收藏
Hugging Face2022-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dl4phys/top_tagging
下载链接
链接失效反馈
官方服务:
资源简介:
Top Quark Tagging数据集是通过蒙特卡洛模拟生成的,模拟了在大型强子对撞机中质子-质子碰撞产生的事件。该数据集包含顶夸克信号和混合夸克-胶子背景喷流,使用Pythia8生成,中心能量为14 TeV。数据集中的每个实例包含前200个喷流成分的四动量信息,对于少于200个成分的喷流,使用零填充。数据集还提供了顶夸克的四动量信息,并通过`is_signal_new`列标记事件是否来自顶夸克(1)或QCD背景(0)。该数据集可用于训练模型进行二元分类任务,即预测事件是由顶夸克信号还是夸克-胶子背景产生的。

The Top Quark Tagging dataset is generated via Monte Carlo simulations, modeling proton-proton collision events produced at the Large Hadron Collider (LHC). The dataset encompasses top quark signal samples and mixed quark-gluon jet backgrounds, which are generated using Pythia8 at a center-of-mass energy of 14 TeV. Each instance contains the four-momentum information of the first 200 jet constituents; for jets with fewer than 200 constituents, zero-padding is employed to complete the data. The dataset also provides the four-momentum of the top quark, and uses the `is_signal_new` column to label whether an event stems from a top quark (marked as 1) or QCD background (marked as 0). This dataset can be utilized to train models for binary classification tasks, specifically to predict whether an event originates from top quark signals or quark-gluon backgrounds.
提供机构:
dl4phys
原始信息汇总

数据集概述

数据集名称

  • Top Quark Tagging

数据集摘要

  • 该数据集包含由质子-质子碰撞产生的蒙特卡洛模拟事件,使用Pythia8默认调谐在14 TeV的质心能量下生成。数据集主要包含顶夸克信号和混合夸克-胶子背景喷注。每个事件记录了领先的200个喷注组分四动量((E, p_x, p_y, p_z)),对于少于200个组分的喷注,使用零填充。

支持的任务和排行榜

  • 任务类型: 表格二分类
  • 任务描述: 预测事件是由顶夸克产生还是由夸克-胶子背景产生。
  • 性能指标: 准确率和AUC分数。

数据集结构

数据实例
  • 每个实例包含领先的200个喷注组分的四动量,按(p_T)排序。对于组分少于200的喷注,使用零填充。此外,还包括顶夸克的四动量和一个标签is_signal_new,用于指示事件是否来自顶夸克(1)或QCD背景(0)。
数据字段
  • E_i: 喷注组分(i)的能量。
  • PX_i: 喷注组分(i)的(x)方向动量。
  • PY_i: 喷注组分(i)的(y)方向动量。
  • PZ_i: 喷注组分(i)的(z)方向动量。
  • truthE: 顶夸克的能量。
  • truthPX: 顶夸克的(x)方向动量。
  • truthPY: 顶夸克的(y)方向动量。
  • truthPZ: 顶夸克的(z)方向动量。
  • ttv: 指示喷注所属的分割(训练、验证或测试)。
  • is_signal_new: 喷注的标签,1表示顶夸克,0表示QCD背景。
数据分割
  • 训练集: 1211000事件
  • 验证集: 403000事件
  • 测试集: 404000事件

许可证信息

引用信息

@dataset{kasieczka_gregor_2019_2603256, author = {Kasieczka, Gregor and Plehn, Tilman and Thompson, Jennifer and Russel, Michael}, title = {Top Quark Tagging Reference Dataset}, month = mar, year = 2019, publisher = {Zenodo}, version = {v0 (2018_03_27)}, doi = {10.5281/zenodo.2603256}, url = {https://doi.org/10.5281/zenodo.2603256} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过蒙特卡洛模拟方法生成,基于大型强子对撞机(LHC)中质子-质子碰撞事件。使用Pythia8模拟器,在14 TeV的质心能量下生成顶夸克信号和混合的夸克-胶子背景喷注。数据集记录了每个事件中前200个喷注成分的四动量(\(E, p_x, p_y, p_z\)),并对少于200个成分的喷注进行零填充处理。
使用方法
该数据集适用于表格分类任务,主要用于训练和评估二分类模型,以预测事件是否源自顶夸克信号或夸克-胶子背景。用户可以通过加载数据集并提取四动量信息和标签,构建分类模型。常见的评估指标包括准确率和AUC分数,以衡量模型在区分信号和背景方面的性能。
背景与挑战
背景概述
顶夸克标记(Top Quark Tagging)数据集由Gregor Kasieczka等人于2019年创建,旨在通过模拟大型强子对撞机(LHC)中的质子-质子碰撞事件,研究顶夸克的信号识别问题。该数据集基于Pythia8蒙特卡洛模拟生成,中心质量能量为14 TeV,涵盖了顶夸克信号与混合的夸克-胶子背景事件。数据集的核心研究问题在于通过机器学习模型区分顶夸克信号与QCD背景,从而推动高能物理领域中粒子识别技术的进步。
当前挑战
顶夸克标记数据集在构建过程中面临的主要挑战包括:首先,数据集需要处理大量高维度的四动量信息,这要求模型具备高效的特征提取能力。其次,由于顶夸克信号与QCD背景的复杂性,模型在区分这两种信号时容易受到噪声和背景干扰的影响,导致分类准确性下降。此外,数据集的生成过程中忽略了多重相互作用和堆积效应,这可能对实际物理场景的模拟精度产生一定影响。
常用场景
经典使用场景
在粒子物理学领域,dl4phys/top_tagging数据集的经典使用场景主要集中在训练和评估用于区分顶夸克信号与强子背景的分类模型。通过分析模拟的质子-质子碰撞事件,该数据集提供了顶夸克信号和混合夸克-胶子背景的喷注数据,使得研究者能够构建高效的分类器,以识别和区分这些复杂的粒子事件。
解决学术问题
该数据集解决了粒子物理学中一个关键的学术问题,即如何在高能物理实验中有效区分顶夸克信号与强子背景。通过提供高质量的模拟数据,研究者能够开发和验证新的机器学习算法,从而提高顶夸克事件的识别精度,这对于理解基本粒子物理和探索新物理现象具有重要意义。
实际应用
在实际应用中,dl4phys/top_tagging数据集被广泛用于大型强子对撞机(LHC)等高能物理实验中,帮助物理学家更准确地筛选和分析顶夸克事件。这不仅提高了实验的效率和精度,还为新物理现象的发现提供了强有力的工具,推动了粒子物理学的前沿研究。
数据集最近研究
最新研究方向
在粒子物理学领域,dl4phys/top_tagging数据集的最新研究方向主要集中在利用深度学习技术提升顶夸克标记的准确性。随着大型强子对撞机(LHC)实验数据的不断积累,研究人员致力于开发更高效的模型,以区分顶夸克信号与夸克-胶子背景。这一领域的研究不仅推动了高能物理实验的精确度,还为机器学习在科学数据分析中的应用提供了新的范例。通过优化分类算法和提升模型性能,该数据集在粒子物理学中的应用前景广阔,有望为未来的粒子探测和理论验证提供有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作