空间任务知识图谱数据集

Name: 空间任务知识图谱数据集
Creator: 欧洲空间局（ESA）
Published: 2025-03-24 17:58:44
License: 暂无描述

arXiv2025-03-24 更新2025-03-28 收录

下载链接：

https://anonymous.4open.science/r/LLM4KBP-78FD/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于欧洲空间局（ESA）的 EOPortal 提供的超过1200篇空间任务描述文章生成的。数据集包含了按照空间任务本体结构化的 Turtle 格式描述的个体及其属性。通过迭代应用不同的词汇、句法和语义层面的启发式方法，从任务描述中提取本体个体，并以 Turtle 格式表示。最终，数据集由1025对任务描述和本体个体组成，可用于训练和评估端到端 KBP 模型在空间任务领域的性能。

This dataset is generated from over 1,200 articles on space mission descriptions provided by the European Space Agency (ESA)'s EOPortal. It contains individuals and their attributes structured in accordance with the space mission ontology, represented in Turtle format. Various heuristic methods at lexical, syntactic and semantic levels were iteratively applied to extract ontology individuals from the mission descriptions, which were then formatted in Turtle. Ultimately, the dataset comprises 1025 pairs of mission descriptions and ontology individuals, and can be utilized to train and evaluate the performance of end-to-end KBP models in the space mission domain.

提供机构：

欧洲空间局（ESA）

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

空间任务知识图谱数据集的构建基于欧洲空间局（ESA）维护的EOPortal文档库，该库包含1200余篇详细描述空间任务的文章。通过利用Llama3-8B-Instruct模型，从这些文档中提取结构化信息，并按照预定义的空间任务本体生成RDF序列化的Turtle格式数据。为确保数据质量，采用了多轮迭代生成与验证机制，结合词汇-句法和语义层面的启发式修正方法，最终生成了1025条符合本体约束的优质数据。

特点

该数据集专为空间任务领域设计，填补了现有知识库填充（KBP）数据集在专业技术领域的空白。其核心特点包括：严格遵循空间任务本体规范，覆盖任务名称、状态、轨道参数等专业属性；采用完整的Turtle序列化格式输出，支持大规模文本输入处理；通过模型微调验证，2.8B参数模型即可达到优于零样本大型模型的性能表现。数据质量经CEOS数据库交叉验证，在仪器名称等关键属性上达到0.687的语义相似度。

使用方法

该数据集主要用于训练和评估端到端知识库填充系统。使用时应将Pythia等自回归语言模型在包含任务指令、任务描述文本（可选本体模式）的输入上进行监督微调，输出目标为Turtle格式的本体实例。验证集采用CEOS数据库中的172条结构化数据，建议评估时结合Rouge-L和LLM语义相似度双指标。值得注意的是，对于1B参数以上的模型，提示词中无需包含本体定义即可获得最佳性能，这显著降低了计算资源消耗。

背景与挑战

背景概述

空间任务知识图谱数据集由Expert.ai语言技术研究实验室的Andres Garcia-Silva和Jose Manuel Gomez-Perez于2025年提出，旨在通过自回归语言模型实现端到端的知识库填充（KBP）。该数据集专注于空间任务领域，利用欧洲空间局（ESA）维护的EOPortal文档资源生成，包含超过1,200篇空间任务描述，涵盖了任务概述、仪器、轨道和利益相关者等关键信息。这一研究填补了领域特定知识图谱数据集的空白，为空间任务领域的知识库自动填充提供了重要资源。

当前挑战

空间任务知识图谱数据集面临的主要挑战包括：1) 领域问题的挑战：空间任务领域涉及复杂的专业词汇和结构化知识，如何准确提取和表示这些知识是一个关键问题；2) 构建过程的挑战：在生成Turtle格式的RDF序列化时，需要确保语法正确性和语义一致性，同时处理长文本输入和复杂的本体约束。此外，数据集中存在计划日期与实际日期的差异，增加了评估的复杂性。

常用场景

经典使用场景

在空间任务知识图谱数据集的经典使用场景中，研究者主要聚焦于如何通过自回归语言模型实现端到端的知识库填充（KBP）。该数据集通过利用现有的领域资源，生成用于训练和评估的合成数据，特别适用于空间任务领域的知识图谱构建。其典型应用包括从任务描述文本中提取实体和关系，并将其形式化为RDF序列化格式，如Turtle。这一过程不仅优化了知识图谱的自动化填充，还显著提升了领域特定词汇的处理能力。

解决学术问题

该数据集有效解决了知识库填充中的多个关键学术问题，包括实体链接、关系抽取和槽填充等传统多组件流程中的错误传播问题。通过端到端的自回归语言模型，研究者能够直接从文本中提取符合预定义本体的三元组，避免了传统流程中的累积误差。此外，该数据集还针对领域特定知识库的稀缺性问题，提供了空间任务领域的专用数据集，填补了现有数据集中在专业领域上的不足。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于Pythia语言模型的端到端知识库填充系统。这些研究通过不同规模的模型（从14M到12B参数）验证了专用模型在KBP任务中的高效性。此外，相关研究还探索了如何在不包含本体提示的情况下优化模型性能，进一步推动了低资源环境下知识图谱构建技术的发展。这些工作不仅扩展了数据集的适用范围，还为后续研究提供了重要的技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集