nasa-science-code-benchmark-v0.1.1

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/nasa-impact/nasa-science-code-benchmark-v0.1.1

下载链接

链接失效反馈

官方服务：

资源简介：

NASA代码检索基准v0.1.1是一个基于NASA GitHub仓库中7种编程语言（Python、C、C++、Java、JavaScript、Fortran和Matlab）代码的代码检索基准。该数据集提供了三种配置方式：按编程语言、查询类型和NASA科学部门进行分类。数据集结构包括corpus.jsonl、queries.jsonl和qrels目录，qrels目录下又分为division、programming_language和query_type三个子目录。用户可以通过编程语言、查询类型或NASA部门来加载和评估模型性能。

创建时间：

2026-01-17

原始信息汇总

NASA Code Retrieval Benchmark v0.1.1 数据集概述

基本信息

数据集名称: NASA Code Retrieval Benchmark v0.1.1
发布方: NASA Impact
许可证: Apache 2.0
任务类别: 文本检索
标签: 代码、NASA、科学、检索基准

数据集描述

该数据集是NASA代码检索基准的更新版本（v0.1.1），提供了一个基于NASA GitHub仓库中7种编程语言代码的代码检索基准。v0.1.1版本引入了分层结构和官方的Hugging Face数据集配置，允许按特定语言或查询类别评估模型，避免了文件系统中的数据冗余。

数据集结构

数据集包含以下核心文件：

corpus.jsonl
queries.jsonl
qrels/ 目录

评估配置（qrels）

真实关系（qrels）组织为三个主要配置目录：

按编程语言评估 (programming_language/)
- c++.tsv
- c.tsv
- fortran.tsv
- java.tsv
- javascript.tsv
- matlab.tsv
- python.tsv
按查询类型评估 (query_type/)
- nasa_science_class_code_docstring_heldout.tsv
- nasa_science_class_code_identifier_heldout.tsv
- nasa_science_function_code_docstring_heldout.tsv
- nasa_science_function_code_identifier_heldout.tsv
按NASA科学部门评估 (division/)
- astrophysics_division.tsv
- biological_and_physical_sciences_division.tsv
- earth_science_division.tsv
- heliophysics_division.tsv
- planetary_science_division.tsv
- not_a_nasa_division.tsv

使用方法

可通过以下三种配置加载数据集：

1. 按编程语言加载

用于评估模型在特定语言上的性能。 python from datasets import load_dataset ds = load_dataset("nasa-impact/nasa-science-code-benchmark-v0.1.1", name="programming_language")

2. 按查询类型加载

用于根据查询性质评估性能。 python from datasets import load_dataset ds = load_dataset("nasa-impact/nasa-science-code-benchmark-v0.1.1", name="query_type")

3. 按NASA部门加载

用于根据NASA部门评估性能。 python from datasets import load_dataset ds = load_dataset("nasa-impact/nasa-science-code-benchmark-v0.1.1", name="division")

评估类别详情

编程语言

文件	语言
`python.tsv`	Python
`c.tsv`	C
`c++.tsv`	C++
`java.tsv`	Java
`javascript.tsv`	JavaScript
`fortran.tsv`	Fortran
`matlab.tsv`	Matlab

查询类型

文件	描述
`nasa_science_function_code_docstring_heldout.tsv`	查询是函数的文档/注释。
`nasa_science_function_code_identifier_heldout.tsv`	查询是特定的函数名称。
`nasa_science_class_code_docstring_heldout.tsv`	查询是类的文档/注释。
`nasa_science_class_code_identifier_heldout.tsv`	查询是特定的类名称。

搜集汇总

数据集介绍

构建方式

在科学计算与软件工程交叉领域，NASA科学代码检索基准数据集通过系统化采集NASA GitHub仓库中的开源代码构建而成。该数据集精心筛选了涵盖C、C++、Fortran、Java、JavaScript、MATLAB和Python等七种编程语言的代码片段，并依据代码的语义结构与功能属性，建立了查询语句与对应代码片段之间的关联标注。数据组织采用层次化结构，将真实关联关系按编程语言、查询类型及NASA科学部门三个维度进行分类存储，确保了评估目标的明确性与数据的可扩展性。

特点

本数据集的核心特征在于其多维度的评估框架与精细化的结构设计。数据集不仅覆盖了多种科学计算常用的编程语言，还通过查询类型划分，区分了基于文档字符串、标识符等不同语义层次的检索任务。此外，数据集进一步引入了NASA内部科学部门的分类视角，使得评估能够反映特定学科领域的代码检索需求。这种分层配置有效避免了数据冗余，支持研究者针对特定维度进行模型性能的深入分析，为代码检索研究提供了兼具广度与深度的基准平台。

使用方法

为便于研究者开展评估，数据集提供了标准化的加载接口。用户可通过Hugging Face的`load_dataset`函数，指定`programming_language`、`query_type`或`division`等配置名称，分别加载按编程语言、查询意图或NASA科学部门划分的子集。每个子集均包含统一的语料库、查询集及真实关联文件，支持直接用于检索模型的性能评测。这种模块化的使用方式允许用户灵活聚焦于特定评估场景，同时保持了数据格式的一致性，简化了实验流程。

背景与挑战

背景概述

在科学计算与航天工程领域，代码检索技术对于提升软件复用效率和加速科研进程具有关键作用。NASA科学代码检索基准数据集（nasa-science-code-benchmark-v0.1.1）由NASA IMPACT团队创建，旨在构建一个基于NASA GitHub仓库中七种编程语言代码的专业检索基准。该数据集聚焦于解决科学代码的精准检索问题，通过结构化查询与语料库，支持按编程语言、查询类型及NASA科学部门等多维度评估模型性能，为代码智能和检索系统在复杂科学场景中的应用提供了标准化测试平台。

当前挑战

该数据集致力于应对科学代码检索中的核心挑战：如何在多语言、多领域的科学代码库中实现高精度语义匹配，尤其需处理专业术语密集、代码结构异构以及文档与标识符语义鸿沟等问题。在构建过程中，挑战主要源于数据清洗与标注的复杂性，包括从NASA海量仓库中提取高质量代码片段、确保跨语言一致性，以及设计覆盖不同科学部门与查询意图的细粒度评估体系，同时避免数据冗余并维持评估的公平性与可重复性。

常用场景

经典使用场景

在代码检索领域，NASA科学代码基准数据集为评估信息检索模型在跨编程语言环境下的性能提供了标准化测试平台。该数据集通过构建查询与代码片段之间的关联，支持研究者针对特定编程语言或查询类型进行细粒度评估，从而深入分析模型在不同科学计算场景中的泛化能力与鲁棒性。

衍生相关工作

围绕该数据集，已衍生出多项专注于科学代码语义检索与跨语言表示学习的经典研究。这些工作探索了基于Transformer的检索架构、代码注释生成模型以及领域自适应方法，进一步拓展了代码检索技术在航空航天、计算科学等专业领域的应用边界。

数据集最近研究