sid0608/Llama2_dataset

Name: sid0608/Llama2_dataset
Creator: sid0608
Published: 2024-03-31 13:03:37
License: 暂无描述

Hugging Face2024-03-31 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/sid0608/Llama2_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Open-Orca/OpenOrca数据集的子集，从中随机选取了100,000行数据。通过余弦相似度矩阵（阈值为0.95）对选取的数据进行了去重处理，并且忽略了少于100个token的响应，以提高微调效果。经过预处理后，最终保留了约10,000行数据，可用于微调Llama 2模型。数据集包含id、system_prompt、question和response四个特征，且仅包含训练集，大小为19,254,307字节，包含10,428个示例。

提供机构：

sid0608

原始信息汇总

数据集概述

数据集名称

Llama2-finetune dataset

数据来源

该数据集是Open-Orca/OpenOrca数据集的一个子集，随机选取了100,000行数据。

数据预处理

通过余弦相似度矩阵进行数据去重，阈值设为0.95。
忽略少于100个token的响应。
经过预处理后，剩余约10,000行数据。

数据集特征

id: 数据类型为字符串。
system_prompt: 数据类型为字符串。
question: 数据类型为字符串。
response: 数据类型为字符串。

数据集划分

训练集（train）:
- 数据量: 19,254,307字节
- 示例数量: 10,428个

数据集大小

下载大小: 10,846,255字节
数据集总大小: 19,254,307字节

配置信息

配置名称: default
数据文件:
- 划分: 训练集
- 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集