Astronomy RAG Corpus
收藏github2026-01-04 更新2026-01-05 收录
下载链接:
https://github.com/radioastronomyio/astronomy-rag-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个专门的天文学知识语料库,用于支持DESI研究的检索增强生成(RAG)。该系统将LLM响应基于可验证的科学数据,保留引用拓扑结构,并通过Claude Code和MCP集成实现多步骤研究工作流程。
A specialized astronomy knowledge corpus intended to support Retrieval-Augmented Generation (RAG) for DESI research. This system grounds LLM responses in verifiable scientific data, preserves citation topology, and enables multi-step research workflows through integration with Claude Code and MCP.
创建时间:
2025-12-30
原始信息汇总
Astronomy RAG Corpus 数据集概述
基本信息
- 标题: Astronomy RAG Corpus
- 描述: 用于检索增强生成(RAG)的专用天文学知识语料库,支持DESI研究。
- 作者: VintageDon
- 创建日期: 2025-12-29
- 版本: 1.0
- 状态: Active
- 许可证: MIT
核心目标
构建一个来自天文学文献的专用知识语料库,旨在支持DESI研究组合的检索增强生成(RAG)。该系统将大语言模型(LLM)的响应建立在可验证的科学数据之上,保留引文拓扑结构,并通过Claude Code和MCP集成实现多步骤研究工作流。
研究组合支持
该语料库支持Proxmox Astronomy Lab的DESI研究组合:
- desi-cosmic-void-galaxies: 主要消费者——空洞科学文献。
- desi-qso-anomaly-detection: QSO/AGN方法论论文。
- desi-quasar-outflows: 外流物理学文献。
种子语料库重点: DESIVAST(空洞目录方法论)——所有三个项目的核心。
架构设计
联邦知识核心
系统将内容与上下文解耦,以NASA ADS Bibcode作为通用键进行桥接。实现“图增强检索”——语义搜索结果通过引文拓扑结构进行精炼。
语料库质量层次结构
数据源按结构、保真度和可靠性排序:
- DESI, SIMBAD, VizieR: 结构化目录数据(地面实况)。
- FITS Headers: 观测元数据(仪器来源)。
- arXiv LaTeX: 来自源的干净文本(高保真度)。
- PDF Extraction: 来自渲染文档的文本(尽力而为)。
LaTeX优先提取至关重要,因为PDF到文本的转换会破坏数学符号、弄乱方程并引入污染嵌入空间的OCR伪影。
实施阶段
| 阶段 | 名称 | 状态 | 描述 |
|---|---|---|---|
| 01 | Ideation and Setup | ✅ 完成 | GDR审查,仓库初始化 |
| 02 | GitHub Frameout | ✅ 完成 | 里程碑、任务、GitHub标签 |
| 03 | Acquisition | ✅ 完成 | arXiv客户端,PDF下载,源提取 |
| 04 | Extraction | ⬜ 下一个 | LaTeX/PDF文本提取 |
| 05 | Storage | ⬜ 计划中 | 数据库、嵌入、检索 |
| 06 | Harvester | ⬜ 计划中 | 批量采集,种子语料库填充 |
| 07 | Hybrid Engine | ⬜ 计划中 | Neo4j图构建 |
| 08 | Agent | ⬜ 计划中 | LangGraph状态机 |
| 09 | Interface | ⬜ 计划中 | MCP服务器,Claude Code集成 |
行走骨架(阶段03-05)
证明架构可行的最小端到端循环:
arXiv ID → 下载源 → LaTeX提取 → 干净文本 + bibcode → PostgreSQL → 语义查询 → 返回并注明出处
基础设施
该项目运行在Proxmox Astronomy Lab研究集群上。
| 组件 | 资源 | 用途 |
|---|---|---|
| PostgreSQL + pgvector | radio-pgsql01 (10.25.20.8) | 语义层、嵌入、向量搜索 |
| Neo4j | radio-neo4j01 (10.25.20.21) | 拓扑层、引文图 |
| SMB Storage | radio-fs02 (10.25.20.15) | 物理层、PDF/LaTeX工件 |
| GPU | radio-gpu01 (A4000, 16GB) | 嵌入生成 |
| 数据库 | astronomy_rag_corpus |
专用语料库数据库 |
关键技术
| 类别 | 技术 | 用途 |
|---|---|---|
| 数据库 | PostgreSQL 16 + pgvector | 向量存储、语义搜索 |
| Neo4j 5 | 引文图、作者网络 | |
| 摄取 | arxiv.py | arXiv论文检索 |
| ads | NASA ADS书目数据 | |
| pylatexenc | LaTeX → 干净文本 | |
| PyMuPDF | PDF提取(备用) | |
| astropy | FITS头提取 | |
| 编排 | LangGraph | 有状态的智能体工作流 |
| 接口 | MCP | Claude Code集成 |
相关文档
致谢
- DESI Collaboration
- NASA ADS
- arXiv
- CDS (SIMBAD和VizieR服务)
- Proxmox Astronomy Lab
搜集汇总
数据集介绍

构建方式
在构建Astronomy RAG Corpus时,研究团队遵循了严谨的科学数据治理原则,采用分阶段实施的架构策略。该过程始于从高质量的天文学文献源系统性地采集数据,优先获取arXiv的LaTeX源文件以确保数学符号与专业术语的精确性,避免PDF转换可能引入的OCR噪声。随后,通过专用管道进行文本提取与清洗,并利用NASA ADS Bibcode作为统一标识符,将语义内容、引用拓扑关系及物理存储路径进行解耦,分别存入PostgreSQL向量数据库、Neo4j图数据库与网络存储中,从而形成一个联邦化的知识核心。
特点
本数据集的核心特征在于其联邦知识核心架构,它将文献的语义含义与结构关系进行了有效分离。语义层通过pgvector支持高精度向量检索,确保对复杂天文学概念的精准捕捉;拓扑层则借助Neo4j构建了论文间的引用网络与作者关系,实现了基于图结构的上下文增强检索。数据集严格遵循质量分级体系,优先收录来自DESI、SIMBAD等权威机构的结构化数据与LaTeX源码,保障了信息的可追溯性与高保真度,专门为支持DESI相关的宇宙空洞星系、类星体异常检测等前沿研究课题而优化。
使用方法
使用该数据集时,研究人员可通过集成的检索增强生成(RAG)管道接入其知识核心。典型的应用流程始于向系统提交一个专业查询,例如关于DESI空洞星系淬灭的物理机制,系统会首先在PostgreSQL的向量空间中进行语义搜索,获取相关的文本片段。随后,检索结果会被送入Neo4j图数据库,依据论文间的引用拓扑关系进行上下文扩展与精炼,从而引入那些语义上不直接匹配但具有关键奠基性作用的文献。最终,经过图增强的检索结果可作为可靠上下文,供基于LangGraph构建的自主研究智能体或通过MCP集成的Claude Code等工具进行深度分析与生成,确保输出建立在可验证的科学数据之上。
背景与挑战
背景概述
天文学领域的研究正经历着数据密集型范式的深刻变革,随着大型巡天项目如暗能量光谱仪(DESI)产生海量观测数据,如何高效整合与利用分散的学术文献知识成为关键瓶颈。Astronomy RAG Corpus应运而生,由Proxmox Astronomy Lab的研究团队于2025年末主导构建,其核心目标是为检索增强生成(RAG)系统打造一个专业的天文学知识库。该数据集旨在解决天文研究中文献信息碎片化、专业术语与数学符号复杂、以及大型语言模型在科学语境下易产生幻觉等核心问题。通过结构化整合DESI研究组合相关的论文、星表数据及元数据,该知识库致力于为深度研究智能体提供可追溯、高保真的知识基础,从而推动宇宙学、星系演化等前沿领域的发现进程。
当前挑战
构建Astronomy RAG Corpus面临多重挑战。在领域问题层面,天文文献包含大量数学公式、专业符号及快速演化的术语体系,标准文本处理流程极易导致语义失真,这对确保嵌入向量的准确性与检索结果的科学性构成严峻考验。同时,科学推理不仅依赖文本语义相似性,更需理解文献间的引用拓扑关系,如理论奠基、观点反驳等复杂逻辑关联,传统RAG架构难以捕捉此类深层知识网络。在构建过程中,首要挑战在于数据源的异构性与质量分层,需协调来自DESI、arXiv、NASA ADS等不同渠道的结构化数据、LaTeX源码及PDF文档,并优先采用LaTeX提取以避免PDF转换过程中的公式损毁与OCR伪影。此外,实现‘联邦知识核心’架构要求解耦语义内容、引用图与物理存储,对数据库设计、图神经网络集成及多步骤工作流编排提出了极高的系统工程复杂度。
常用场景
经典使用场景
在天文学研究领域,Astronomy RAG Corpus 最经典的使用场景是作为检索增强生成(RAG)系统的知识核心,专门服务于暗能量光谱仪(DESI)相关的研究项目。该数据集通过整合来自DESI、arXiv、NASA ADS等来源的结构化与半结构化文献,构建了一个语义与拓扑关系分离的联邦知识库。研究人员可以利用其进行“图增强检索”,即先通过向量搜索获取语义相关的文本片段,再依据引文图谱扩展上下文,从而精准定位支撑科学论断的关键文献与基础理论,尤其适用于探索宇宙空洞星系淬灭、类星体异常检测等前沿课题。
衍生相关工作
围绕Astronomy RAG Corpus 的设计理念与架构,已衍生出一系列相关的经典工作与项目。其核心的“联邦知识核心”思想启发了对科学文献进行多维度(语义、拓扑、物理存储)解耦与关联的通用框架。具体而言,该项目直接支撑了同实验室的“desi-cosmic-void-galaxies”、“desi-qso-anomaly-detection”和“desi-quasar-outflows”等研究,为它们提供了定制的文献知识库。此外,其采用的LangGraph智能体工作流和MCP集成方案,也为构建面向其他科学领域的自主研究代理系统提供了可复用的技术范式。
数据集最近研究
最新研究方向
在当代天文学研究领域,随着大型巡天项目如DESI(暗能量光谱仪)产生海量观测数据,如何高效整合并挖掘分散的学术文献与结构化数据,已成为推动科学发现的关键挑战。Astronomy RAG Corpus作为专为检索增强生成(RAG)设计的领域知识库,其前沿研究聚焦于构建“联邦知识核心”架构,旨在将文献的语义内容与引文拓扑关系解耦。这一创新方向不仅支持基于图增强检索的多步骤研究流程,以精准追溯科学论断的源头与演变,更通过整合DESI、arXiv及NASA ADS等多源异构数据,为宇宙空洞星系、类星体异常检测等热点课题提供了可验证、可复现的知识基底。该数据集的发展,标志着天文学信息学正从传统文献管理迈向支持自主智能体进行深度科学推理的新范式,对提升研究效率与可靠性具有深远意义。
以上内容由遇见数据集搜集并总结生成



