Neural-Code-Search-Evaluation-Dataset

github2024-03-22 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Neural-Code-Search-Evaluation-Dataset提供了一个评估数据集，包含自然语言查询和代码片段对，旨在为该领域的未来工作提供一个共同的基准。数据集内容包括GitHub上最受欢迎的Android仓库、索引的方法体以及287个Stack Overflow问题和答案对。

The Neural-Code-Search-Evaluation-Dataset provides an evaluation dataset containing pairs of natural language queries and code snippets, aiming to establish a common benchmark for future work in this field. The dataset includes the most popular Android repositories on GitHub, indexed method bodies, and 287 pairs of Stack Overflow questions and answers.

创建时间：

2019-09-21

原始信息汇总

数据集概述

数据集名称

Neural-Code-Search-Evaluation-Dataset

数据集内容

GitHub Repositories
- 数据来源：最受欢迎的Android GitHub仓库（按星数排名）。
- 数量：24,549个仓库。
- 文件位置：data/android_repositories_download_links.txt。
- 包含信息：仓库链接，特定于使用的提交。
Search Corpus
- 数据来源：从24,549个GitHub仓库中解析的所有方法体。
- 数量：4,716,814个方法。
- 包含信息：每个方法的唯一标识符（id）、文件路径（filepath）、方法名（method_name）、起始行号（start_line）、结束行号（end_line）、GitHub链接（url）。
- 文件位置：data/search_corpus_1.tar.gz 和 data/search_corpus_2.tar.gz。
Evaluation Dataset
- 数据来源：287个Stack Overflow问题和答案对。
- 包含信息：Stack Overflow帖子ID（stackoverflow_id）、问题标题（question）、问题URL（question_url）、答案（answer）。
- 文件位置：data/287_android_questions.json。
NCS / UNIF Score Sheet
- 包含信息：两种代码搜索模型的评估结果，包括NCS和UNIF模型的不同变体。
- 文件位置：data/score_sheet.csv。

数据集用途

作为未来工作的共同基准，用于评估代码搜索模型的性能。

许可证

CC-BY-NC 4.0 (Attribution-NonCommercial 4.0 International)

搜集汇总

数据集介绍

构建方式

Neural-Code-Search-Evaluation-Dataset的构建基于GitHub上最受欢迎的Android仓库，通过解析这些仓库中的方法体，形成了一个包含4,716,814个方法的搜索语料库。此外，数据集还包含了从Stack Overflow数据转储中收集的287个问答对，每个问答对均包含问题标题、问题URL以及对应的代码片段答案。数据集的构建过程不仅涵盖了代码片段的提取，还通过提供GitHub仓库的下载链接和Python脚本，确保了数据的可复现性和完整性。

特点

该数据集的特点在于其广泛的覆盖范围和精细的标注信息。搜索语料库涵盖了24,549个GitHub仓库中的方法体，每个方法均包含唯一的ID、文件路径、方法名称、起始行号、结束行号以及GitHub链接。评估数据集则包含了287个Stack Overflow问答对，每个问答对均详细标注了问题ID、问题标题、问题URL、代码片段答案及其相关示例。此外，数据集还提供了两种代码搜索模型（NCS和UNIF）的评估结果，为研究者提供了丰富的基准数据。

使用方法

使用Neural-Code-Search-Evaluation-Dataset时，研究者可以通过提供的Python脚本下载GitHub仓库，并利用搜索语料库中的方法体进行代码搜索任务。评估数据集中的Stack Overflow问答对可用于测试和验证代码搜索模型的性能。数据集中的评分表（score_sheet.csv）提供了两种代码搜索模型在评估数据集上的表现，研究者可以基于此进行模型性能的对比分析。此外，数据集的CC-BY-NC 4.0许可证确保了其在非商业研究中的广泛使用。

背景与挑战

背景概述

Neural-Code-Search-Evaluation-Dataset 是一个专注于自然语言查询与代码片段匹配的评估数据集，旨在为代码搜索领域的研究提供统一的基准。该数据集由研究人员于2019年发布，其核心研究问题在于如何通过自然语言查询高效地检索相关的代码片段。数据集构建基于GitHub上最受欢迎的Android仓库，共包含24,549个仓库和4,716,814个方法体，同时结合了287个Stack Overflow问答对作为评估样本。该数据集的发布推动了代码搜索模型的发展，特别是在自然语言处理与代码理解交叉领域的研究中，具有重要的影响力。

当前挑战

Neural-Code-Search-Evaluation-Dataset 在解决代码搜索问题时面临多重挑战。首先，自然语言查询与代码片段之间的语义鸿沟是核心难题，如何准确理解查询意图并将其映射到代码结构仍需深入研究。其次，数据集的构建过程涉及大规模代码库的解析与索引，处理海量数据的技术复杂性和计算资源需求极高。此外，评估数据集的多样性和代表性也是一个关键挑战，确保样本覆盖广泛的编程场景和问题类型，以验证模型的泛化能力。这些挑战共同推动了代码搜索技术的创新与优化。

常用场景

经典使用场景

Neural-Code-Search-Evaluation-Dataset在代码搜索领域中被广泛用作基准测试工具，特别是在自然语言查询与代码片段匹配的研究中。该数据集通过提供大量的GitHub仓库中的方法体以及Stack Overflow的问题与答案对，为研究者提供了一个标准化的评估平台，用于测试和比较不同代码搜索模型的性能。

衍生相关工作

基于Neural-Code-Search-Evaluation-Dataset，研究者们开发了多种改进的代码搜索模型，如NCS_postrank和UNIF的变体。这些模型在原有基础上引入了更复杂的排名机制和注意力机制，进一步提升了代码搜索的准确性和效率。此外，该数据集还激发了更多关于代码语义理解和自然语言处理的研究，推动了相关领域的交叉融合。

数据集最近研究