srvermeulen/LLM-of-Babel-NL-Labeled

Name: srvermeulen/LLM-of-Babel-NL-Labeled
Creator: srvermeulen
Published: 2024-06-20 21:19:57
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/srvermeulen/LLM-of-Babel-NL-Labeled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，如文件标识（file_id）、令牌长度（token_length）、仓库路径（repo+path）、内容（content）、提示（prompt）、生成内容（generation）、原始注释（original_comment）、预测注释（predicted_comment）、BLEU-4评分（bleu_4）、ROUGE-L评分（rouge_l）和标签（labels）。数据集被划分为一个训练集，包含1199个样本，总大小为24253565.557311464字节。

This dataset includes multiple feature fields such as file_id, token_length, repo+path, content, prompt, generation, original_comment, predicted_comment, bleu_4, rouge_l, and labels. The dataset is divided into a training set containing 1199 samples, with a total size of 24253565.557311464 bytes.

提供机构：

srvermeulen

原始信息汇总

数据集概述

数据集信息

特征

file_id: 文件ID，数据类型为字符串。
token_length: 标记长度，数据类型为64位整数。
repo+path: 仓库路径，数据类型为字符串。
content: 内容，数据类型为字符串。
prompt: 提示，数据类型为字符串。
generation: 生成内容，数据类型为字符串。
original_comment: 原始评论，数据类型为字符串。
predicted_comment: 预测评论，数据类型为字符串。
bleu_4: BLEU-4评分，数据类型为64位浮点数。
rouge_l: ROUGE-L评分，数据类型为64位浮点数。
labels: 标签，数据类型为字符串。

数据分割

train: 训练集，包含1199个样本，总大小为24253565.557311464字节。

数据集大小

下载大小: 7779204字节。
数据集大小: 24253565.557311464字节。

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集