five

betteruncensored/open-instruct-v1

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/betteruncensored/open-instruct-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Open Instruct V1 Better Uncensored数据集是经过Better Uncensored管道处理后的open-instruct-v1数据集,大约2.5%的数据被移除,主要是误报或包含有争议的道德化内容。原始数据集可能适合训练未审查的模型,但为了更加安全,可以使用这个处理后的版本。Open Instruct V1是一个用于训练大型语言模型遵循指令的数据集,它由多个不同的数据集经过清理和整理后合并而成。

Open Instruct V1 Better Uncensored数据集是经过Better Uncensored管道处理后的open-instruct-v1数据集,大约2.5%的数据被移除,主要是误报或包含有争议的道德化内容。原始数据集可能适合训练未审查的模型,但为了更加安全,可以使用这个处理后的版本。Open Instruct V1是一个用于训练大型语言模型遵循指令的数据集,它由多个不同的数据集经过清理和整理后合并而成。
提供机构:
betteruncensored
原始信息汇总

Open Instruct V1 Better Uncensored

概述

Open Instruct V1 Better Uncensored 数据集是通过 Better Uncensored 管道处理后的 open-instruct-v1 数据集。该数据集移除了约 2.5% 的内容,主要包含误报或具有争议性道德内容的数据。经过快速审查,未发现明显的拒绝内容。原始数据集可能适合训练无审查模型,但若需更确保安全性,可使用此处理后的数据集。

数据集组成

Open Instruct V1 是一个由多个数据集清洗并整合成单一格式的数据集,用于训练大型语言模型(LLMs)遵循指令。

数据集细分

数据集名称 样本数量
Alpaca 51759
Self Instruct 82599
GPT-4 Instruct 18194
Code Alpaca 18019
Dolly 15015
Synthetic 33143
Roleplay 3146
asss 448
instruction-dataset 327
总计 222650
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作