sid0608/Llama2_dataset
收藏Hugging Face2024-03-31 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/sid0608/Llama2_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Open-Orca/OpenOrca数据集的子集,从中随机选取了100,000行数据。通过余弦相似度矩阵(阈值为0.95)对选取的数据进行了去重处理,并且忽略了少于100个token的响应,以提高微调效果。经过预处理后,最终保留了约10,000行数据,可用于微调Llama 2模型。数据集包含id、system_prompt、question和response四个特征,且仅包含训练集,大小为19,254,307字节,包含10,428个示例。
提供机构:
sid0608
原始信息汇总
数据集概述
数据集名称
- Llama2-finetune dataset
数据来源
- 该数据集是Open-Orca/OpenOrca数据集的一个子集,随机选取了100,000行数据。
数据预处理
- 通过余弦相似度矩阵进行数据去重,阈值设为0.95。
- 忽略少于100个token的响应。
- 经过预处理后,剩余约10,000行数据。
数据集特征
id: 数据类型为字符串。system_prompt: 数据类型为字符串。question: 数据类型为字符串。response: 数据类型为字符串。
数据集划分
- 训练集(train):
- 数据量: 19,254,307字节
- 示例数量: 10,428个
数据集大小
- 下载大小: 10,846,255字节
- 数据集总大小: 19,254,307字节
配置信息
- 配置名称: default
- 数据文件:
- 划分: 训练集
- 路径: data/train-*



