five

stojchet/6K_java_base

收藏
Hugging Face2024-07-14 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/stojchet/6K_java_base
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置项:default和java,主要涉及代码库中的函数信息。每个配置项包含多个特征,如repository_name(代码库名称)、func_path_in_repository(函数在代码库中的路径)、func_name(函数名称)、whole_func_string(完整函数字符串)、language(编程语言)、func_code_string(函数代码字符串)、func_code_tokens(函数代码标记序列)、func_documentation_string(函数文档字符串)、func_documentation_tokens(函数文档标记序列)、split_name(划分名称)、func_code_url(函数代码URL)、prediction(预测)、prepared_prompt(准备好的提示)、func_def(函数定义)。数据集分为train和validation两个划分,分别包含6000和10个示例,总大小为31,651,658字节。

The dataset includes two configurations: default and java. The default configuration contains both training and validation sets, with 6000 samples in the training set and 10 samples in the validation set. The java configuration only contains a training set with 7507 samples. Both configurations include multiple features such as repository name, function path, function name, function code string, language, function code tokens, function documentation string, function documentation tokens, split name, function code URL, prediction, prepared prompt, and function definition.
提供机构:
stojchet
原始信息汇总

数据集概述

数据集配置

默认配置 (default)

  • 特征:
    • repository_name: 字符串
    • func_path_in_repository: 字符串
    • func_name: 字符串
    • whole_func_string: 字符串
    • language: 字符串
    • func_code_string: 字符串
    • func_code_tokens: 字符串序列
    • func_documentation_string: 字符串
    • func_documentation_tokens: 字符串序列
    • split_name: 字符串
    • func_code_url: 字符串
    • prediction: 字符串
    • prepared_prompt: 字符串
    • func_def: 字符串
  • 分割:
    • train: 31583906 字节, 6000 个样本
    • validation: 67752 字节, 10 个样本
  • 下载大小: 13696070 字节
  • 数据集大小: 31651658 字节

Java 配置 (java)

  • 特征:
    • repository_name: 字符串
    • func_path_in_repository: 字符串
    • func_name: 字符串
    • whole_func_string: 字符串
    • language: 字符串
    • func_code_string: 字符串
    • func_code_tokens: 字符串序列
    • func_documentation_string: 字符串
    • func_documentation_tokens: 字符串序列
    • split_name: 字符串
    • func_code_url: 字符串
    • prediction: 字符串
    • prepared_prompt: 字符串
    • func_def: 字符串
  • 分割:
    • train: 39660698 字节, 7507 个样本
  • 下载大小: 17066135 字节
  • 数据集大小: 39660698 字节

数据文件路径

默认配置 (default)

  • train: data/train-*
  • validation: data/validation-*

Java 配置 (java)

  • train: java/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作