betteruncensored/open-instruct-v1
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/betteruncensored/open-instruct-v1
下载链接
链接失效反馈官方服务:
资源简介:
Open Instruct V1 Better Uncensored数据集是经过Better Uncensored管道处理后的open-instruct-v1数据集,大约2.5%的数据被移除,主要是误报或包含有争议的道德化内容。原始数据集可能适合训练未审查的模型,但为了更加安全,可以使用这个处理后的版本。Open Instruct V1是一个用于训练大型语言模型遵循指令的数据集,它由多个不同的数据集经过清理和整理后合并而成。
Open Instruct V1 Better Uncensored数据集是经过Better Uncensored管道处理后的open-instruct-v1数据集,大约2.5%的数据被移除,主要是误报或包含有争议的道德化内容。原始数据集可能适合训练未审查的模型,但为了更加安全,可以使用这个处理后的版本。Open Instruct V1是一个用于训练大型语言模型遵循指令的数据集,它由多个不同的数据集经过清理和整理后合并而成。
提供机构:
betteruncensored
原始信息汇总
Open Instruct V1 Better Uncensored
概述
Open Instruct V1 Better Uncensored 数据集是通过 Better Uncensored 管道处理后的 open-instruct-v1 数据集。该数据集移除了约 2.5% 的内容,主要包含误报或具有争议性道德内容的数据。经过快速审查,未发现明显的拒绝内容。原始数据集可能适合训练无审查模型,但若需更确保安全性,可使用此处理后的数据集。
数据集组成
Open Instruct V1 是一个由多个数据集清洗并整合成单一格式的数据集,用于训练大型语言模型(LLMs)遵循指令。
数据集细分
| 数据集名称 | 样本数量 |
|---|---|
| Alpaca | 51759 |
| Self Instruct | 82599 |
| GPT-4 Instruct | 18194 |
| Code Alpaca | 18019 |
| Dolly | 15015 |
| Synthetic | 33143 |
| Roleplay | 3146 |
| asss | 448 |
| instruction-dataset | 327 |
| 总计 | 222650 |



