XAMI-Dataset
收藏arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://github.com/ESA-Datalabs/XAMI-dataset
下载链接
链接失效反馈官方服务:
资源简介:
XAMI-Dataset是由欧洲空间局(ESA)的欧洲空间天文学中心(ESAC)创建的一个专门用于天文图像中人工制品检测的数据集。该数据集包含7021个手工标注的人工制品,涵盖了从XMM-Newton空间望远镜光学监测相机捕获的图像中提取的多种类型人工制品。数据集的创建过程涉及对1000张图像的手工标注,并利用深度学习方法进行人工制品的自动检测和实例分割。XAMI-Dataset的应用领域主要集中在天文观测中的人工制品检测,旨在提高数据处理的自动化水平,减少人工干预,提高科学研究的准确性。
The XAMI-Dataset is a specialized dataset designed for artifact detection in astronomical images, developed by the European Space Astronomy Centre (ESAC) under the European Space Agency (ESA). This dataset contains 7,021 manually annotated artifacts, covering a wide range of artifact types extracted from images captured by the Optical Monitoring Camera of the XMM-Newton space telescope. The development of the XAMI-Dataset involved manual annotation of 1,000 images, as well as the application of deep learning methods for automated artifact detection and instance segmentation. The primary application of the XAMI-Dataset focuses on artifact detection in astronomical observations, aiming to improve the automation level of data processing, reduce manual intervention, and enhance the accuracy of scientific research.
提供机构:
欧洲空间局(ESA),欧洲空间天文学中心(ESAC)
创建时间:
2024-06-25
原始信息汇总
XAMI 数据集概述
简介
XAMI 数据集包含 1000 张来自 XMM-Newton 光学监测器(XMM-OM)图像目录的不同天空区域的观测图像,并进行了标注。此外,还包括 50 张未标注的图像,以帮助减少由复杂物体(如大型星系、星团、星云)引起的假阳性或假阴性。
数据集下载
克隆仓库
bash git clone https://github.com/ESA-Datalabs/XAMI-dataset.git cd XAMI-dataset
创建环境并安装所需包
conda env create -f environment.yaml pip install -e .
从 HuggingFace 下载数据集
- 使用 Python 脚本(参见 load_and_visualise_dataset.pynb) python from xami_dataset import XAMIDataset
下载数据集
xami_dataset = XAMIDataset( repo_id="iulia-elisa/XAMI-dataset", dataset_name="xami_dataset", dest_dir=./data)
- 或使用 CLI 命令下载并解压数据集 bash DEST_DIR=/path/to/local/dest
huggingface-cli download iulia-elisa/XAMI-dataset xami_dataset.zip --repo-type dataset --local-dir "$DEST_DIR" && unzip "$DEST_DIR/xami_dataset.zip" -d "$DEST_DIR" && rm "$DEST_DIR/xami_dataset.zip"
数据集结构
数据集分为训练和验证类别,并包含用于实例分割的 COCO 格式标注。我们使用多标签分层 K 折(k=4)来平衡类分布。我们选择使用单一数据集分割版本(共 4 个版本),但也提供了使用所有 4 个版本的方法。
标注平台
图像使用以下项目进行标注:
许可证
数据集遵循 CC BY-NC 3.0 IGO 许可证。
搜集汇总
数据集介绍

构建方式
XAMI-Dataset 是由 XMM-Newton 光学监控相机在不同波长下的1000张单通道图像构成,每张图像均包含特定滤光器下所有可用窗口的堆叠,覆盖了17'×17'的全视野。图像经过重采样和标准化处理,并使用 ZScaleInterval 算法进行增强,以适应卷积神经网络和基于变压器的模型的需求。人工标注了7021个 artefact 实例,用于训练机器学习模型进行精确的实例分割。
特点
该数据集的特点在于:涵盖了多种类型的 artefact,包括读出条纹、烟雾圈、中央环、星环和其他类型;图像经过精心处理,以适应不同的机器学习模型;标注详尽,有助于模型的训练和评估。
使用方法
使用该数据集时,首先需要加载图像和对应的标注,然后可以选择合适的机器学习模型进行训练。训练过程中,可以使用数据集提供的7021个标注实例进行模型的学习。在模型训练完成后,可用于天文图像中 artefact 的自动检测和分割。
背景与挑战
背景概述
XAMI-Dataset是一个为天文观测图像中的伪迹检测而创建的基准数据集。该数据集由Elisabeta-Iulia Dima等人于近期提出,主要研究人员来自于罗马尼亚蒂米什瓦拉理工大学的计算机与信息技术系以及欧洲空间局(ESA)的欧洲空间天文学中心(ESAC)。XAMI-Dataset的核心研究问题是自动化检测天文观测图像中的伪迹,这对于处理日益增长的数据量至关重要。该数据集包含1000张来自XMM-Newton光学监测相机的手注释图像,用以训练机器学习方法。其影响力体现在为天文观测数据中的伪迹检测提供了可复现的基线,并且所有代码和数据均已公开。
当前挑战
XAMI-Dataset在构建过程中遇到的挑战主要包括:1) 缺乏用于训练机器学习方法的注释数据;2) 构建过程中需要对不同波长的图像进行标准化和增强处理;3) 在数据集标注过程中,由于曝光时间和强度级别的变化,确定区分伪迹和背景的清晰阈值具有一定的难度。此外,所解决的领域问题——图像分类中的伪迹检测,也面临着如何有效识别和处理不同类型伪迹的挑战。
常用场景
经典使用场景
XAMI-Dataset是一款专注于天文学领域的人工制品检测数据集。其经典使用场景在于训练机器学习模型,以自动检测和分割天文观测图像中的各种人工制品,例如读出条纹、烟圈、中心环、星环等。这些人工制品的存在会对天文数据分析造成干扰,因此,利用XAMI-Dataset训练出的模型能够有效提升天文观测数据的质量,辅助科研人员更准确地分析宇宙现象。
实际应用
在实际应用中,XAMI-Dataset可以被用于天文图像处理软件的开发和优化,例如,在处理xmm-newton光学监测相机获取的图像时,利用基于该数据集训练的模型来自动检测和标记人工制品,进而净化数据,提升后续分析的质量。此外,该数据集也可用于教育和研究,帮助学者和学生更好地理解天文数据处理中的挑战和解决方案。
衍生相关工作
基于XAMI-Dataset,研究者们已经开展了一系列相关工作。例如,开发出结合卷积神经网络和变换器模型的方法,用于更精确的人工制品检测和分割。此外,还有工作专注于利用该数据集进行模型性能评估和基准测试,以推动天文学领域机器学习应用的发展。
以上内容由遇见数据集搜集并总结生成



