parislo/LLM-of-Babel-Final-Dataset-el
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/parislo/LLM-of-Babel-Final-Dataset-el
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置(el和el-copy),每个配置都有相同的特征字段,如文件ID、内容、仓库、路径等。数据集主要用于训练,包含713个样本,总大小为29282763字节。特征字段包括文件ID、内容、仓库、路径、标记长度、原始注释、注释类型、检测到的语言、提示、预测注释、掩码数据、预测、标记化数据、标记化文本、BLEU分数、ROUGE分数、语义相似度、描述性注释、错误1-6、备注和排除项。
The dataset contains two configurations (el and el-copy), each with the same feature fields such as file_id, content, repo, path, etc. The dataset is primarily used for training, containing 713 samples with a total size of 29282763 bytes. The feature fields include file_id, content, repo, path, token_length, original_comment, comment_type, detected_lang, prompt, prediction_comment, masked_data, predict, tokenized_data, tokenized_text, bleu_score, rouge_scores, semantic_similarity, descriptive_comment, Error 1-6, Remarks, and Excluded.
提供机构:
parislo
原始信息汇总
数据集概述
数据集配置
- config_name: el
- config_name: el-copy
特征信息
- file_id: 文件ID,数据类型为字符串。
- content: 内容,数据类型为字符串。
- repo: 仓库,数据类型为字符串。
- path: 路径,数据类型为字符串。
- token_length: 标记长度,数据类型为int64。
- original_comment: 原始评论,数据类型为字符串。
- comment_type: 评论类型,数据类型为字符串。
- detected_lang: 检测到的语言,数据类型为字符串。
- prompt: 提示,数据类型为字符串。
- prediction_comment: 预测评论,数据类型为字符串。
- masked_data: 掩码数据,数据类型为字符串。
- predict: 预测,数据类型为字符串。
- tokenized_data: 标记化数据,数据类型为字符串。
- tokenized_text: 标记化文本,数据类型为字符串。
- bleu_score: BLEU分数,数据类型为float64。
- rouge_scores: ROUGE分数,数据类型为字符串。
- semantic_similarity: 语义相似度,数据类型为float64。
- descriptive_comment: 描述性评论,数据类型为字符串。
- Error 1: 错误1,数据类型为字符串。
- Error 2: 错误2,数据类型为字符串。
- Error 3: 错误3,数据类型为字符串。
- Error 4: 错误4,数据类型为字符串。
- Error 5: 错误5,数据类型为字符串。
- Error 6: 错误6,数据类型为字符串。
- Remarks: 备注,数据类型为字符串。
- Excluded: 排除,数据类型为字符串。
数据分割
- train: 训练集,包含713个样本,数据大小为29282763字节。
数据集大小
- download_size: 8674662字节
- dataset_size: 29282763字节
数据文件路径
- el: 训练集路径为
el/train-*。 - el-copy: 训练集路径为
el-copy/train-*。



