stojchet/6K_java_base
收藏Hugging Face2024-07-14 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/stojchet/6K_java_base
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置项:default和java,主要涉及代码库中的函数信息。每个配置项包含多个特征,如repository_name(代码库名称)、func_path_in_repository(函数在代码库中的路径)、func_name(函数名称)、whole_func_string(完整函数字符串)、language(编程语言)、func_code_string(函数代码字符串)、func_code_tokens(函数代码标记序列)、func_documentation_string(函数文档字符串)、func_documentation_tokens(函数文档标记序列)、split_name(划分名称)、func_code_url(函数代码URL)、prediction(预测)、prepared_prompt(准备好的提示)、func_def(函数定义)。数据集分为train和validation两个划分,分别包含6000和10个示例,总大小为31,651,658字节。
The dataset includes two configurations: default and java. The default configuration contains both training and validation sets, with 6000 samples in the training set and 10 samples in the validation set. The java configuration only contains a training set with 7507 samples. Both configurations include multiple features such as repository name, function path, function name, function code string, language, function code tokens, function documentation string, function documentation tokens, split name, function code URL, prediction, prepared prompt, and function definition.
提供机构:
stojchet
原始信息汇总
数据集概述
数据集配置
默认配置 (default)
- 特征:
repository_name: 字符串func_path_in_repository: 字符串func_name: 字符串whole_func_string: 字符串language: 字符串func_code_string: 字符串func_code_tokens: 字符串序列func_documentation_string: 字符串func_documentation_tokens: 字符串序列split_name: 字符串func_code_url: 字符串prediction: 字符串prepared_prompt: 字符串func_def: 字符串
- 分割:
train: 31583906 字节, 6000 个样本validation: 67752 字节, 10 个样本
- 下载大小: 13696070 字节
- 数据集大小: 31651658 字节
Java 配置 (java)
- 特征:
repository_name: 字符串func_path_in_repository: 字符串func_name: 字符串whole_func_string: 字符串language: 字符串func_code_string: 字符串func_code_tokens: 字符串序列func_documentation_string: 字符串func_documentation_tokens: 字符串序列split_name: 字符串func_code_url: 字符串prediction: 字符串prepared_prompt: 字符串func_def: 字符串
- 分割:
train: 39660698 字节, 7507 个样本
- 下载大小: 17066135 字节
- 数据集大小: 39660698 字节
数据文件路径
默认配置 (default)
train:data/train-*validation:data/validation-*
Java 配置 (java)
train:java/train-*



