Neural Code Search Evaluation Dataset
收藏arXiv2019-10-02 更新2024-07-30 收录
下载链接:
https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为‘Neural Code Search Evaluation Dataset’,由Facebook, Inc. 美国创建,旨在为代码搜索模型提供一个评估基准。数据集包含287对来自Stack Overflow的问答,每对都包含一个自然语言查询和一个相关的代码片段答案。数据集的创建过程涉及从GitHub公共仓库中提取代码片段,并使用Stack Exchange的数据转储来筛选问题。该数据集主要用于评估不同代码搜索模型的性能,特别是在解决开发者在编程过程中遇到的具体问题。
提供机构:
Facebook, Inc. 美国
创建时间:
2019-08-27
原始信息汇总
Neural-Code-Search-Evaluation-Dataset 数据集概述
数据集内容
GitHub 仓库
- 来源: 最受欢迎的 Android 仓库(按星标数量排名)。
- 数量: 共 24,549 个仓库。
- 文件:
data/android_repositories_download_links.txt包含下载链接。 - 下载脚本:
download.py用于下载这些仓库。
搜索语料库
- 来源: 从 24,549 个 GitHub 仓库解析的方法体。
- 数量: 共 4,716,814 个方法。
- 文件:
data/search_corpus_1.tar.gz和data/search_corpus_2.tar.gz。 - 内容:
- id: 方法的唯一标识符。
- filepath: 文件路径,格式为
:owner/:repo/relative-file-path-to-the-repo。 - method_name: 方法名。
- start_line: 方法的起始行号。
- end_line: 方法的结束行号。
- url: GitHub 链接,包含提交ID和行号。
评估数据集
- 来源: 287 个 Stack Overflow 问题和答案对。
- 文件:
data/287_android_questions.json。 - 内容:
- stackoverflow_id: Stack Overflow 帖子ID。
- question: 帖子标题。
- question_url: 帖子URL。
- answer: 问题的代码片段答案。
NCS / UNIF 评分表
- 模型:
- NCS: 无监督模型,使用直接从搜索语料库派生的词嵌入。
- NCS<sub>postrank</sub>: NCS 模型的扩展,执行后通过排序。
- UNIF<sub>android</sub>, UNIF<sub>stackoverflow</sub>: 使用基于词袋的神经网络和注意力的监督扩展。
- 文件:
data/score_sheet.csv。 - 内容: 每个问题的第一个正确答案的排名(FRank)。
许可证
- 类型: CC-BY-NC 4.0(署名-非商业性使用)。



