gaiasky-training-dataset

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/Langurmonkey/gaiasky-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Gaia Sky专家数据集是一个用于微调大型语言模型（LLM）的数据集，旨在使模型成为Gaia Sky生态系统的专家。该数据集涵盖了3D天文可视化、Java引擎架构、Python脚本API和GLSL着色器逻辑等内容。数据集包含两种主要配置：1）蒸馏（指令调优）版本，包含通过Qwen 3.5 35B生成的高质量合成问答对，适用于监督微调（SFT）；2）原始源代码版本，包含清理后的源代码和文档，适用于检索增强生成（RAG）。数据集经过提取、清理、转换和蒸馏等处理步骤，确保数据的高质量和多样性。数据集采用GPL-3.0许可证，使用时需注明来源Gaia Sky项目。

创建时间：

2026-03-06

原始信息汇总

Gaia Sky Expert Dataset 概述

数据集基本信息

数据集名称: Gaia Sky Expert Dataset
托管地址: https://huggingface.co/datasets/Langurmonkey/gaiasky-training-dataset
许可证: mpl-2.0
任务类别: 文本生成、问答
主要语言: 英语
标签: 代码、天文学、宇宙、空间、gaia-sky、java、opengl、glsl、可视化、科学
数据规模: 1K<n<10K

数据集目的

该数据集旨在微调大型语言模型，使其成为 Gaia Sky 生态系统专家。内容涵盖3D天文可视化、Java引擎架构、Python脚本API以及GLSL着色器逻辑。

数据集结构

数据集包含两种主要配置：

1. 精炼数据（指令调优）

文件: train.jsonl
格式: {"instruction": "...", "output": "...", "source_file": "..."}
描述: 通过 Qwen 3.5 35B 生成的高质量合成问答对，是用于监督微调的主要文件。
特点:
- 加权重要性：架构文档约有12对问答；小型类约有2对。
- 多样性：强制变化问题类型（概念性问题与实现性问题）。

2. 原始源代码（仅上下文）

文件: raw_context/full_sources.jsonl
格式: {"instruction": "...", "input": "...", "output": "..."}
描述: 经过清理的源代码和文档。
特点:
- 已移除Java许可证头部信息。
- 文档已从RST格式转换为GitHub风格的Markdown格式。
- 适用于检索增强生成或上下文注入。

数据处理流程

提取: 爬取源文件，排除构建产物和发布版本。
清理: 通过正则表达式移除Java模板/版权头部信息，以最大化令牌效率。
转换: 使用Pandoc将文档从RST格式转换为GFM格式，以确保清晰的语义结构。
精炼: 使用教师模型执行自指令精炼，以提取逻辑性的“如何操作”和“原因”问答对。

复现: 本数据集是使用 Gaia Sky Finetune repo on Codeberg 中的工具生成的。

使用方法

使用 datasets 库加载。 python from datasets import load_dataset

加载用于训练的指令调优数据

dataset = load_dataset("your-username/gaiasky-expert", split="train")

加载用于RAG的原始源代码

sources = load_dataset("your-username/gaiasky-expert", "raw_source")

引用与许可

本数据集源自 Gaia Sky 项目，采用GPL-3.0许可证。
若使用此数据集进行微调，请注明感谢Gaia Sky项目。

搜集汇总

数据集介绍

构建方式

在三维天文可视化领域，Gaia Sky专家数据集的构建遵循严谨的工程流程。原始数据通过爬取Gaia Sky项目的源代码与文档获得，排除了构建产物与发布文件以保持数据纯度。随后，利用正则表达式去除Java代码中的许可证头部信息，以提升语言模型训练的令牌效率。文档部分则借助Pandoc工具从RST格式转换为GitHub风格的Markdown，确保语义结构的清晰性。最终，通过自指导蒸馏技术，使用Qwen 3.5 35B作为教师模型，从清洗后的材料中生成高质量的问答对，形成适用于监督微调的蒸馏数据集。

使用方法

使用该数据集时，可借助Hugging Face的datasets库便捷加载。对于监督微调任务，直接加载默认配置的train分割，即可获得格式规范的指令-输出对，适用于训练专家模型。若需构建检索增强生成系统，则可选择raw_source配置，获取原始源代码与文档作为上下文知识库。数据加载后，用户可依据具体研究目标，将其集成至现有训练流程或评估框架中，以提升模型在天文可视化领域的专业能力。

背景与挑战

背景概述

在人工智能与天文学交叉研究日益深入的背景下，Gaia Sky专家数据集于近期应运而生，由Gaia Sky项目团队主导构建，旨在专门针对大型语言模型进行微调，使其精通Gaia Sky生态系统。该数据集聚焦于三维天文可视化、Java引擎架构、Python脚本API及GLSL着色器逻辑等核心领域，通过高质量合成问答对与原始源代码的整合，为天文软件开发和科学可视化中的代码生成与问答任务提供了关键训练资源，推动了领域专用智能助手的发展。

当前挑战

该数据集旨在解决天文可视化软件生态中代码理解与生成的复杂问题，其挑战在于模型需精准掌握跨领域知识，如Java引擎与GLSL着色器的交互逻辑，同时确保输出符合科学准确性。构建过程中，团队面临数据清洗与转换的难题，包括去除Java许可证头以提升令牌效率，以及将RST文档转换为GitHub风格Markdown以保持语义结构，这些步骤对数据质量与模型训练效果构成直接影响。

常用场景

解决学术问题

该数据集有效应对了专业领域知识迁移的学术挑战。传统通用语言模型在天文可视化等垂直领域常面临术语理解偏差与逻辑推理不足的问题。通过蒸馏式指令微调数据与原始源码的并行供给，研究者可系统探索领域自适应、检索增强生成及代码语义理解等关键课题，推动专业化语言模型在科学计算场景中的认知深度与泛化能力突破。

实际应用

实际应用中，该数据集赋能了天文科研与科普教育的智能化转型。基于微调后的模型，开发者可构建智能代码助手以加速Gaia Sky插件开发；教育机构能创建交互式天文教学系统，自动生成三维天体运行演示脚本；科研团队则可利用其检索增强能力快速定位引擎源码，优化大规模天文数据可视化流程，显著提升多模态科学传播效率。

数据集最近研究