mstz/magic
收藏Hugging Face2023-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/magic
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- magic
- tabular_classification
- binary_classification
- UCI
pretty_name: Magic
size_categories:
- 10K<n<100K
task_categories:
- tabular-classification
configs:
- magic
license: cc
---
# Magic
The [Magic dataset](https://archive.ics.uci.edu/ml/datasets/Magic) from the [UCI ML repository](https://archive.ics.uci.edu/ml/datasets).
# Configurations and tasks
| **Configuration** | **Task** | **Description** |
|-------------------|---------------------------|---------------------------------------------------------------|
| magic | Binary classification | Classify the person's magic as over or under the threshold. |
# Usage
```python
from datasets import load_dataset
dataset = load_dataset("mstz/magic")["train"]
```
---
语言:
- 英语
标签:
- 魔术(magic)
- 表格分类(tabular_classification)
- 二分类(binary_classification)
- UCI
展示名称:Magic
样本量范围:
- 1万<样本量<10万
任务类别:
- 表格分类(tabular_classification)
配置项:
- magic
许可证:CC
---
# Magic 数据集
本数据集为源自[UCI机器学习库(UCI ML repository)](https://archive.ics.uci.edu/ml/datasets)的[Magic数据集(Magic dataset)](https://archive.ics.uci.edu/ml/datasets/Magic)。
# 配置项与任务
| **配置项** | **任务类别** | **描述** |
|------------|----------------------------|--------------------------------------------------------|
| magic | 二分类(binary_classification) | 将样本的Magic指标按阈值划分为高于或低于阈值的两类。 |
## 使用方法
python
from datasets import load_dataset
dataset = load_dataset("mstz/magic")["train"]
提供机构:
mstz
原始信息汇总
Magic 数据集概述
基本信息
- 语言: 英语
- 标签:
- 魔法
- 表格分类
- 二元分类
- UCI
- 美观名称: Magic
- 大小分类: 10K<n<100K
- 任务分类: 表格分类
- 配置: magic
- 许可证: cc
数据集来源
- 来源: UCI ML 仓库
- 详细链接: Magic 数据集
配置与任务
| 配置 | 任务 | 描述 |
|---|---|---|
| magic | 二元分类 | 将人的魔法分类为超过或低于阈值。 |
搜集汇总
数据集介绍

构建方式
在粒子物理实验的背景下,Magic数据集源自高能伽马射线望远镜的观测记录,旨在通过机器学习方法区分初级宇宙射线中的伽马光子与强子背景。该数据集构建过程严谨,原始数据由位于加那利群岛的MAGIC望远镜采集,经过特征提取与预处理,最终形成包含多个连续型特征变量的结构化表格。数据条目经过物理学家与数据科学家的双重校验,确保其科学有效性与一致性,为后续分类任务奠定了可靠基础。
特点
Magic数据集以其在粒子天体物理领域的代表性而著称,特征维度设计精良,涵盖了诸如图像参数、能量估计等关键物理量,这些特征能够有效刻画粒子簇射的形态与性质。数据集规模适中,包含超过一万个样本,适用于中等规模的机器学习模型训练与评估。其二元分类任务目标明确,即区分伽马信号与背景噪声,这一特性使其成为评估分类算法在物理数据分析中性能的基准工具。
使用方法
使用Magic数据集时,研究者可通过Hugging Face的datasets库便捷加载,具体操作为调用load_dataset函数并指定数据集名称。加载后的数据以表格形式呈现,可直接用于训练二元分类模型,如逻辑回归、支持向量机或神经网络。在实际应用中,建议先进行特征标准化或归一化处理,以优化模型收敛效果,并可结合交叉验证方法评估模型泛化能力,从而在宇宙射线鉴别任务中取得更准确的预测结果。
背景与挑战
背景概述
Magic数据集源于高能物理实验领域,由德国马克斯·普朗克研究所等机构的研究人员于2004年创建,旨在通过机器学习方法区分伽马射线与强子背景信号。该数据集的核心研究问题聚焦于提升切伦科夫望远镜对宇宙射线的识别精度,其公开可用性极大推动了天体物理学与粒子物理交叉领域的数据驱动研究,成为机器学习在科学数据分析中应用的经典范例。
当前挑战
Magic数据集所解决的领域挑战在于高能物理事件分类的复杂性,具体涉及从噪声背景中精准分离稀有的伽马射线信号,这对分类算法的鲁棒性与泛化能力提出了极高要求。在构建过程中,研究人员面临数据采集环境的极端性挑战,包括大气干扰校正、探测器噪声抑制以及不平衡类别分布的标准化处理,这些因素共同增加了数据质量保障与模型评估的难度。
常用场景
经典使用场景
在粒子物理学与天体物理学的交叉领域,高能伽马射线望远镜的观测数据常被用于区分宇宙射线背景与伽马射线信号。Magic数据集作为这一领域的经典基准,其经典使用场景在于训练和评估二元分类模型,以精准识别望远镜捕获的粒子事件是否源自伽马射线。通过模拟大气切伦科夫成像望远镜的观测特征,该数据集助力研究者优化信号与噪声的分离算法,为宇宙射线的物理分析提供可靠的数据支撑。
实际应用
在实际应用层面,Magic数据集被广泛应用于天文观测仪器的性能优化与实时数据处理系统中。例如,在切伦科夫望远镜阵列的运维中,基于该数据集训练的模型可用于在线事件筛选,减少数据存储与传输负担,同时提高科学发现的效率。此外,它还在教育领域发挥作用,作为机器学习课程的实践案例,帮助学生理解复杂物理数据的分类技术,培养跨学科人才。
衍生相关工作
围绕Magic数据集,学术界衍生了一系列经典研究工作,包括基于支持向量机、随机森林等传统算法的分类器比较研究,以及深度神经网络在粒子事件识别中的创新应用。这些工作不仅提升了伽马射线天文学的自动化分析水平,还促进了机器学习在科学发现中的范式转变。相关成果常发表于物理与计算机科学交叉期刊,为后续大型望远镜项目如CTA提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



