Nutanix/transformers_processed_data_llama70b
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Nutanix/transformers_processed_data_llama70b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如文件名、文件路径、原始代码、描述、函数描述、路径函数描述、类描述、路径类描述、数据描述和路径数据描述。数据集分为训练集,包含6203个样本,总大小为140889593字节。数据集是通过HuggingFace Transformers库(v4.42.3)处理的,使用了代码特征提取管道,并使用了4位量化的Llama 70b模型生成描述。
The dataset contains multiple features such as file name, file path, raw code, description, function description, path function description, class description, path class description, data description, and path data description. The dataset is divided into a training set containing 6203 samples with a total size of 140889593 bytes. The dataset was processed using the HuggingFace Transformers library (v4.42.3), utilizing a code feature extraction pipeline, and descriptions were generated using a 4-bit quantized Llama 70b model.
提供机构:
Nutanix
原始信息汇总
数据集概述
数据集信息
-
特征:
file_name: 文件名,数据类型为字符串。file_path: 文件路径,数据类型为字符串。raw_code: 原始代码,数据类型为字符串。description: 描述,数据类型为字符串。function_description: 函数描述,数据类型为字符串序列。path_function_description: 路径函数描述,数据类型为字符串序列。class_description: 类描述,数据类型为字符串序列。path_class_description: 路径类描述,数据类型为字符串序列。data_description: 数据描述,数据类型为字符串序列。path_data_description: 路径数据描述,数据类型为字符串序列。
-
分割:
train: 训练集,包含6203个样本,总字节数为140889593。
-
下载大小: 43519343字节
-
数据集大小: 140889593字节
配置
- 配置名称:
default- 数据文件:
train: 路径为data/train-*。
- 数据文件:
处理信息
- 数据集由LLM(大语言模型)处理,使用4-bit量化的Llama 70b生成描述。



