Unified Galaxy HI Rotation Curve Corpus (v7.0)
收藏arXiv2026-04-15 更新2026-04-18 收录
下载链接:
https://doi.org/10.5281/zenodo.19563417
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由EPS Research整合的星系HI旋转曲线统一语料库,汇集了SPARC、THINGS、LITTLE THINGS和WALLABY DR2四大调查的438个星系数据,共计8,963条空间分辨的旋转曲线测量。数据以结构化JSON和CSV格式提供,包含每环运动学数据、调查元数据和数据质量注释。数据集旨在解决星系旋转曲线研究中数据分散、格式不统一的问题,支持传统数值分析和大型语言模型检索增强生成(RAG)流程。其应用领域涵盖暗物质研究、修正引力理论验证及计算天体物理学的多组分分析。
This dataset is a unified corpus of galactic HI rotation curves integrated by EPS Research. It compiles data from 438 galaxies across four surveys—SPARC, THINGS, LITTLE THINGS, and WALLABY DR2—totaling 8,963 spatially resolved rotation curve measurements. The data is provided in structured JSON and CSV formats, containing per-ring kinematic data, survey metadata, and data quality annotations. This dataset aims to address the issues of scattered data and inconsistent formats in galactic rotation curve research, supporting both traditional numerical analysis and Retrieval-Augmented Generation (RAG) workflows powered by Large Language Models (LLMs). Its application areas include dark matter research, modified gravity theory validation, and multi-component analysis in computational astrophysics.
提供机构:
EPS Research
创建时间:
2026-04-15
原始信息汇总
Unified Galaxy HI Rotation Curve Corpus (v7.0): SPARC + THINGS + LITTLE THINGS + WALLABY DR2
数据集标识
- DOI: 10.5281/zenodo.19563417
- 发布日期: 2026年4月14日
- 版本: V7
- 许可协议: CC BY 4.0
- 资源类型: 数据集
- 发布者: Zenodo
作者/创建者
- Flynn, David C. (Researcher)
- 所属机构: EPS-Research
- ORCID: 0000-0002-2768-6650
数据集概述
- 版本更新 (v7.0): 更新了语料库文件,扩展了文档,并修订了数据摄取和图表生成脚本。科学范围保持不变。
- 核心内容: 一个统一的语料库,包含来自四个主要巡天的 423个星系 的 8,963个空间分辨的HI旋转曲线测量值,以及另外15个THINGS星系的运动学元数据(总计438个星系)。
- 设计目的: 适用于传统的数值分析和LLM检索增强生成(RAG)流程。
- 单位: 所有半径单位为kpc,所有速度单位为km/s。
- 质量验证: 运动学参数已对照扫描的原始表格进行验证。
- 质量分级系统:
- Tier 1: 手动整理,包含逐点不确定性(来自SPARC、THINGS、LITTLE THINGS巡天)。
- Tier 2: 自动化WALLABY流程。
数据来源与统计
| 巡天 | 星系数量 | 数据点数量 | 质量等级 | 参考文献 |
|---|---|---|---|---|
| SPARC | 175 | 3,391 | 1 | Lelli et al. (2016), AJ 152, 157 |
| THINGS | 34 (19个有数据) | 2,110 | 1 | de Blok et al. (2008), AJ 136, 2648 |
| LITTLE THINGS | 26 | 1,716 | 1 | Oh et al. (2015), AJ 149, 180 |
| WALLABY DR2 | 203 | 1,746 | 2 | Deg et al. (2022); Murugeshan et al. (2024) |
| 总计 | 438 | 8,963 |
文件列表
- rotation_curve_corpus_v7.json — 主JSON文件(约2.0 MB)。包含所有438个星系的单一结构化文档,嵌套每环数据、元数据、列定义和质量注释。权威数据源。
- rotation_curve_corpus_v7_flat.csv — 目录表格(438行,29列)。每行代表一个星系,包含用于筛选和样本选择的汇总统计信息。
- rotation_curve_corpus_v7_by_galaxy.zip — 按星系划分的JSON归档文件(包含SPARC/THINGS/LITTLE_THINGS/WALLABY子目录中的438个文件)。每个文件自包含完整的语料库元数据。针对LLM/RAG摄取进行了优化。
- corpus_description_sheet_v7.docx — 完整的语料库文档。
- READMEv7.md — 本文件的扩展版本。
- wallaby_ingest.py — WALLABY DR2摄取脚本(补充材料)。
- make_figures_v7.py — 用于配套A&C论文的图表生成脚本(补充材料)。
相关出版物
- Flynn, D.C. & Cannaliato, J. (2025). "A new empirical fit to galaxy rotation curves." Frontiers in Astronomy and Space Sciences, 12. DOI: https://doi.org/10.3389/fspas.2025.1680387
引用格式
Flynn, D.C. (2026). Unified Galaxy HI Rotation Curve Corpus (v7.0): SPARC + THINGS + LITTLE THINGS + WALLABY DR2. Zenodo. DOI: 10.5281/zenodo.19563417
关键词
- galaxy rotation curves
- SPARC
- THINGS
- LITTLE THINGS
- RAG
- LLM
版本关系
- 是新版本: DOI: 10.5281/zenodo.19425427
- 补充材料:
- 出版物: DOI: 10.3389/fspas.2025.1680387
- 出版物: DOI: 10.36227/techrxiv.176369640.06690868/v1
编程语言
- Python
访问统计(本版本)
- 浏览次数: 68
- 下载次数: 1
- 数据量: 19.6 kB
搜集汇总
数据集介绍

构建方式
在星系动力学研究中,整合多源观测数据对于揭示暗物质分布与引力理论至关重要。本数据集通过系统化整合SPARC、THINGS、LITTLE THINGS及WALLABY DR2四大巡天项目的原始数据,构建了一个统一的HI旋转曲线语料库。构建过程包括从各巡天公开平台提取数据,将半径统一转换为千秒差距、速度统一为千米每秒,并依据原始文献扫描验证运动学参数。数据以嵌套JSON结构存储,包含每环运动学测量值、巡天元数据及质量标注,同时提供扁平化CSV目录用于星系级筛选,确保了数据格式的一致性与机器可读性。
特点
该数据集涵盖423个星系的8963个空间分辨旋转曲线测量点,并包含15个仅有元数据的THINGS星系,形成了迄今最全面的HI旋转曲线集合。其核心特征在于采用双层质量标注体系:第一层为手工整理且附带逐点不确定度的旋转曲线,第二层为自动化流程产物,便于用户根据数据来源进行筛选。数据集在设计上兼顾传统数值分析与大语言模型检索增强生成流程,每星系数据封装为独立JSON文档,适合直接嵌入计算工作流或作为RAG语料。
使用方法
数据集支持多样化的天体物理分析应用。用户可通过加载主JSON文件,直接提取特定星系的旋转曲线进行绘图、误差分析与多成分重子物质分解,如示例中展示的SPARC星系DDO 161。对于WALLABY等自动化流程数据,可结合质量标注注意速度低于50 km/s区域的波束涂抹效应。此外,扁平CSV目录支持在全样本层面进行参数空间探索,例如分析峰值旋转速度分布或半径-速度关系。数据集亦为大语言模型提供结构化输入,用户可通过自然语言查询生成分析代码,实现旋转曲线绘制、重子速度计算等任务,无需额外数据预处理。
背景与挑战
背景概述
星系旋转曲线是研究盘状星系中质量差异问题的关键观测证据,其观测到的圆周速度与可见重子物质预测速度之间的差距,推动了暗物质晕模型、修正引力理论及经验校正框架的发展。这些研究均依赖于高质量、空间分辨的旋转曲线数据。在此背景下,由David C. Flynn等人于2026年发布的Unified Galaxy HI Rotation Curve Corpus (v7.0)数据集应运而生。该数据集整合了SPARC、THINGS、LITTLE THINGS和WALLABY DR2四大巡天项目的观测结果,涵盖了423个星系的8,963个空间分辨的HI旋转曲线测量点,旨在为计算天体物理学提供统一、机器可读的数据资源。其核心研究问题在于解决星系旋转曲线数据的碎片化问题,通过标准化格式与元数据,促进跨巡天的可重复分析与大规模计算流程的应用,对星系动力学、暗物质研究及引力理论检验具有重要影响力。
当前挑战
该数据集致力于解决星系旋转曲线分析中的领域挑战,即如何系统整合来自不同巡天、具有异构格式与单位定义的旋转曲线数据,以支持大规模计算分析与新兴的LLM增强检索生成流程。在构建过程中,面临多重具体挑战:首先,数据来源分散于不同平台,格式与列定义不兼容,如半径单位在角秒与千秒差距间存在差异,需进行统一转换与验证;其次,部分数据缺失关键元数据,例如SPARC巡天缺乏统一的坐标与系统速度信息;此外,数据质量层次不一,需建立双层质量标注系统以区分手工策展曲线与自动化管道产品;最后,确保JSON模式既能容纳各巡天特有的观测参数,又能保持整体架构的一致性,以支持高效的程序化访问与LLM集成。
常用场景
经典使用场景
在星系动力学研究中,统一星系HI旋转曲线语料库(v7.0)为探索星系旋转曲线提供了标准化的数据基础。该数据集整合了SPARC、THINGS、LITTLE THINGS和WALLABY DR2四大巡天项目的观测结果,涵盖了423个星系的8963个空间分辨旋转曲线测量点。研究者常利用这一语料库进行星系旋转曲线的多成分分析,例如提取观测速度、气体速度、盘面速度及核球速度,进而通过符号保持的平方和计算重子物质速度,以直观揭示星系内部的质量分布特征。
实际应用
在实际应用层面,该语料库被广泛集成于自动化分析流程与大型语言模型检索增强生成架构中。其结构化JSON格式与分层质量标注系统,使得用户能够通过简短代码实现单星系曲线绘制、多巡天参数空间探索等任务。例如,在计算天体物理教学与研究中,学生可快速加载星系数据,执行重子分解或应用经验性ω校正,从而在互动环境中深化对星系动力学原理的理解。
衍生相关工作
基于该语料库,已衍生出多项经典研究工作,特别是在星系旋转曲线的经验性拟合与自动化分析领域。例如,Flynn与Cannaliato提出的ω校正框架便直接利用了语料库中的SPARC数据进行验证与推广。此外,语料库的设计理念也促进了LLM在天体物理研究中的应用探索,如通过检索增强生成技术实现自然语言查询下的代码自动生成与数据分析,为智能天文数据处理流程的开发奠定了基础。
以上内容由遇见数据集搜集并总结生成



