five

GalaxiesML|天体物理学数据集|机器学习数据集

收藏
arXiv2024-10-01 更新2024-10-09 收录
天体物理学
机器学习
下载链接:
https://arxiv.org/pdf/2410.00271v1
下载链接
链接失效反馈
资源简介:
GalaxiesML是由加州大学洛杉矶分校物理与天文学系创建的一个用于机器学习应用的星系数据集。该数据集包含286,401个星系图像、光度测量、红移和结构参数,主要来源于Hyper-Suprime-Cam巡天项目的PDR2数据。数据集经过精心处理,去除了异常值和重复数据,确保了数据的一致性和准确性。创建过程中,研究人员通过多阶段的数据筛选和处理,最终生成了适合机器学习模型使用的格式。GalaxiesML主要用于天体物理学中的红移估计,同时也适用于其他机器学习应用,旨在为下一代大型巡天项目如Euclid和LSST提供高质量的训练数据。
提供机构:
加州大学洛杉矶分校物理与天文学系
创建时间:
2024-10-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
GalaxiesML数据集的构建基于Hyper-Suprime-Cam Survey PDR2的286,401个星系图像和光度数据,涵盖五个成像滤波器(g, r, i, z, y),并附有光谱红移作为地面真值。构建过程包括六个主要阶段:从HSC PDR2和光谱红移数据库中查询和下载数据、应用额外的数据质量过滤器并去除重复和异常值、下载图像并生成裁剪图像、拟合图像以确定形态信息、将数据集保存为机器学习兼容格式。这些步骤确保了数据集的统一性、一致性和最小异常值,同时包含了现实的信噪比范围。
使用方法
GalaxiesML数据集可用于多种机器学习应用,特别是光度红移估计。数据集的图像和光度数据可以作为输入,光谱红移作为标签进行模型训练。数据集提供了两种图像尺寸(127x127像素和64x64像素),便于测试不同图像尺寸对模型性能的影响。数据集分为训练集(60%)、验证集(20%)和测试集(20%),便于模型性能的比较。此外,数据集的公开性和兼容性使其易于集成到流行的数据加载器API中,促进机器学习工作流的便捷使用。
背景与挑战
背景概述
GalaxiesML数据集由加州大学洛杉矶分校(UCLA)物理与天文学系的Tuan Do、Evan Jones、Yun Qi Li和Kevin Alfaro等人创建,旨在为机器学习应用提供包含星系图像、光度、红移和结构参数的综合数据集。该数据集基于Hyper-Suprime-Cam Survey PDR2的286,401个星系图像和光度数据,涵盖五个成像滤波器(g, r, i, z, y),并附有光谱确认的红移作为地面真值。GalaxiesML的发布旨在推动下一代如Euclid和LSST等大型巡天项目的机器学习方法的发展,其重要性在于数据的统一性、一致性和最小化的异常值,同时包含现实信号噪声比的广泛范围。
当前挑战
GalaxiesML数据集在构建过程中面临多项挑战,包括异常值的剔除、数据重复的检测、地面真值的建立以及样本选择等。此外,该数据集旨在解决星系红移估计的复杂问题,特别是在仅依赖图像信息时,红移的确定尤为困难。尽管光谱红移提供了可靠的地面真值,但其获取成本高且耗时,因此机器学习方法在此领域的应用显得尤为重要。GalaxiesML的发布不仅为天体物理学研究提供了强有力的工具,也为机器学习领域提供了一个具有科学目标的高质量数据集,但其在大规模数据处理和模型训练方面的挑战仍需进一步克服。
常用场景
经典使用场景
GalaxiesML数据集的经典应用场景主要集中在利用机器学习技术进行星系红移估计。通过结合星系图像和光度数据,研究人员能够训练卷积神经网络(CNN)以提高红移估计的准确性。例如,数据集中的图像和光度信息被用于开发混合CNN模型,该模型在红移估计中表现出比仅使用光度数据的神经网络模型更高的精度。
解决学术问题
GalaxiesML数据集解决了天体物理学中一个关键的学术问题,即如何从星系图像中准确估计红移。传统的光谱测量方法耗时且成本高昂,而机器学习方法提供了一种高效且可扩展的替代方案。通过提供大量具有光谱红移作为基准的星系图像,该数据集促进了红移估计模型的开发和验证,这对于理解宇宙的大尺度结构和暗物质、暗能量的性质具有重要意义。
实际应用
在实际应用中,GalaxiesML数据集被广泛用于训练和验证用于大型天文巡天项目的红移估计模型。例如,该数据集为即将到来的欧几里得卫星和LSST巡天项目提供了宝贵的训练数据,这些项目旨在观测数十亿个星系以绘制宇宙的大尺度结构。通过使用GalaxiesML数据集训练的模型,天文学家能够更快速、更准确地估计星系的红移,从而推进宇宙学和天体物理学的研究。
数据集最近研究
最新研究方向
在宇宙学和天体物理学领域,GalaxiesML数据集的最新研究方向主要集中在利用机器学习技术进行星系图像的分析和红移估计。随着下一代天文观测设备如Euclid和LSST的即将上线,研究人员正致力于开发更高效、更精确的机器学习模型,以处理这些设备将产生的大规模数据。GalaxiesML数据集因其包含的星系图像、光度测量、红移和结构参数的丰富信息,成为这一研究方向的重要资源。通过结合图像和光度数据,研究人员能够构建卷积神经网络(CNN)模型,显著提高红移估计的准确性,这对于理解宇宙的大尺度结构和暗物质、暗能量的性质具有重要意义。
相关研究论文
  • 1
    GalaxiesML: a dataset of galaxy images, photometry, redshifts, and structural parameters for machine learning加州大学洛杉矶分校物理与天文学系 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。

OpenDataLab 收录

HotpotQA

HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A 和属性 B?)和比较问题,其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中,QA 模型有 10 个段落,保证能找到黄金段落;在开放域全维基设置中,模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估,其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠,后者关注预测的支持事实句子与人类注释的匹配程度(Supporting Fact EM/F1)。该数据集还报告了一个联合指标,它鼓励系统同时在两项任务上表现良好。 来源:通过迭代查询生成回答复杂的开放域问题

OpenDataLab 收录

EV充电数据合成集

该数据集由我们的模型生成,旨在用于训练,包含约160万次充电事件,涉及3777辆电池电动车,时间跨度为365天。

github 收录

Huatuo-26M

Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。

arXiv 收录