five

Neural Code Search Evaluation Dataset

收藏
arXiv2019-10-02 更新2024-07-30 收录
下载链接:
https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘Neural Code Search Evaluation Dataset’,由Facebook, Inc. 美国创建,旨在为代码搜索模型提供一个评估基准。数据集包含287对来自Stack Overflow的问答,每对都包含一个自然语言查询和一个相关的代码片段答案。数据集的创建过程涉及从GitHub公共仓库中提取代码片段,并使用Stack Exchange的数据转储来筛选问题。该数据集主要用于评估不同代码搜索模型的性能,特别是在解决开发者在编程过程中遇到的具体问题。
提供机构:
Facebook, Inc. 美国
创建时间:
2019-08-27
原始信息汇总

Neural-Code-Search-Evaluation-Dataset 数据集概述

数据集内容

GitHub 仓库

  • 来源: 最受欢迎的 Android 仓库(按星标数量排名)。
  • 数量: 共 24,549 个仓库。
  • 文件: data/android_repositories_download_links.txt 包含下载链接。
  • 下载脚本: download.py 用于下载这些仓库。

搜索语料库

  • 来源: 从 24,549 个 GitHub 仓库解析的方法体。
  • 数量: 共 4,716,814 个方法。
  • 文件: data/search_corpus_1.tar.gzdata/search_corpus_2.tar.gz
  • 内容:
    • id: 方法的唯一标识符。
    • filepath: 文件路径,格式为 :owner/:repo/relative-file-path-to-the-repo
    • method_name: 方法名。
    • start_line: 方法的起始行号。
    • end_line: 方法的结束行号。
    • url: GitHub 链接,包含提交ID和行号。

评估数据集

  • 来源: 287 个 Stack Overflow 问题和答案对。
  • 文件: data/287_android_questions.json
  • 内容:
    • stackoverflow_id: Stack Overflow 帖子ID。
    • question: 帖子标题。
    • question_url: 帖子URL。
    • answer: 问题的代码片段答案。

NCS / UNIF 评分表

  • 模型:
    • NCS: 无监督模型,使用直接从搜索语料库派生的词嵌入。
    • NCS<sub>postrank</sub>: NCS 模型的扩展,执行后通过排序。
    • UNIF<sub>android</sub>, UNIF<sub>stackoverflow</sub>: 使用基于词袋的神经网络和注意力的监督扩展。
  • 文件: data/score_sheet.csv
  • 内容: 每个问题的第一个正确答案的排名(FRank)。

许可证

  • 类型: CC-BY-NC 4.0(署名-非商业性使用)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作