five

parislo/LLM-of-Babel-Final-Dataset-el

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/parislo/LLM-of-Babel-Final-Dataset-el
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置(el和el-copy),每个配置都有相同的特征字段,如文件ID、内容、仓库、路径等。数据集主要用于训练,包含713个样本,总大小为29282763字节。特征字段包括文件ID、内容、仓库、路径、标记长度、原始注释、注释类型、检测到的语言、提示、预测注释、掩码数据、预测、标记化数据、标记化文本、BLEU分数、ROUGE分数、语义相似度、描述性注释、错误1-6、备注和排除项。

The dataset contains two configurations (el and el-copy), each with the same feature fields such as file_id, content, repo, path, etc. The dataset is primarily used for training, containing 713 samples with a total size of 29282763 bytes. The feature fields include file_id, content, repo, path, token_length, original_comment, comment_type, detected_lang, prompt, prediction_comment, masked_data, predict, tokenized_data, tokenized_text, bleu_score, rouge_scores, semantic_similarity, descriptive_comment, Error 1-6, Remarks, and Excluded.
提供机构:
parislo
原始信息汇总

数据集概述

数据集配置

  • config_name: el
  • config_name: el-copy

特征信息

  • file_id: 文件ID,数据类型为字符串。
  • content: 内容,数据类型为字符串。
  • repo: 仓库,数据类型为字符串。
  • path: 路径,数据类型为字符串。
  • token_length: 标记长度,数据类型为int64。
  • original_comment: 原始评论,数据类型为字符串。
  • comment_type: 评论类型,数据类型为字符串。
  • detected_lang: 检测到的语言,数据类型为字符串。
  • prompt: 提示,数据类型为字符串。
  • prediction_comment: 预测评论,数据类型为字符串。
  • masked_data: 掩码数据,数据类型为字符串。
  • predict: 预测,数据类型为字符串。
  • tokenized_data: 标记化数据,数据类型为字符串。
  • tokenized_text: 标记化文本,数据类型为字符串。
  • bleu_score: BLEU分数,数据类型为float64。
  • rouge_scores: ROUGE分数,数据类型为字符串。
  • semantic_similarity: 语义相似度,数据类型为float64。
  • descriptive_comment: 描述性评论,数据类型为字符串。
  • Error 1: 错误1,数据类型为字符串。
  • Error 2: 错误2,数据类型为字符串。
  • Error 3: 错误3,数据类型为字符串。
  • Error 4: 错误4,数据类型为字符串。
  • Error 5: 错误5,数据类型为字符串。
  • Error 6: 错误6,数据类型为字符串。
  • Remarks: 备注,数据类型为字符串。
  • Excluded: 排除,数据类型为字符串。

数据分割

  • train: 训练集,包含713个样本,数据大小为29282763字节。

数据集大小

  • download_size: 8674662字节
  • dataset_size: 29282763字节

数据文件路径

  • el: 训练集路径为el/train-*
  • el-copy: 训练集路径为el-copy/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作