stojchet/corrupted-dpo-final_base_dataset
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/stojchet/corrupted-dpo-final_base_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要包含Python代码函数的相关信息,涵盖了函数在仓库中的路径、函数名称、完整函数字符串、编程语言、函数代码字符串、函数代码标记、函数文档字符串、函数文档标记、数据集分割名称、函数代码URL、预测结果、准备好的提示和函数定义等特征。数据集分为训练集和验证集,训练集包含49689个样本,验证集包含4702个样本。数据集的下载大小为157402126字节,总大小为343732494字节。
The dataset primarily contains detailed information about Python code and related documentation, including repository name, function path in repository, function name, whole function string, language, function code string, function code tokens, function documentation string, function documentation tokens, split name, function code URL, prediction, prepared prompt, and function definition. The dataset is divided into a training set and a validation set, containing 49689 and 4702 samples respectively.
提供机构:
stojchet
原始信息汇总
数据集概述
数据集信息
- 配置名称: python
- 特征:
- repository_name: 仓库名称,数据类型为字符串。
- func_path_in_repository: 函数在仓库中的路径,数据类型为字符串。
- func_name: 函数名称,数据类型为字符串。
- whole_func_string: 整个函数的字符串表示,数据类型为字符串。
- language: 编程语言,数据类型为字符串。
- func_code_string: 函数代码字符串,数据类型为字符串。
- func_code_tokens: 函数代码的标记序列,数据类型为字符串序列。
- func_documentation_string: 函数文档字符串,数据类型为字符串。
- func_documentation_tokens: 函数文档的标记序列,数据类型为字符串序列。
- split_name: 数据集分割名称,数据类型为字符串。
- func_code_url: 函数代码的URL,数据类型为字符串。
- prediction: 预测结果,数据类型为字符串。
- prepared_prompt: 准备好的提示,数据类型为字符串。
- func_def: 函数定义,数据类型为字符串。
数据集分割
- 训练集:
- 名称: train
- 字节数: 319893577
- 样本数: 49689
- 验证集:
- 名称: validation
- 字节数: 23838917
- 样本数: 4702
数据集大小
- 下载大小: 157402126 字节
- 数据集大小: 343732494 字节
配置
- 配置名称: python
- 数据文件:
- 训练集路径: python/train-*
- 验证集路径: python/validation-*



