cognitivecomputations/open-instruct-uncensored
收藏Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cognitivecomputations/open-instruct-uncensored
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Allen AI的open-instruct数据集,用于训练Tulu系列的模型。数据集经过处理,包括下载未过滤的sharegpt数据集、合并处理后的数据文件,并通过自定义脚本移除拒绝回答的内容,生成了一个未经过滤的版本。作者正在使用这个未经过滤的数据集训练一个新的模型系列。
该数据集是Allen AI的open-instruct数据集,用于训练Tulu系列的模型。数据集经过处理,包括下载未过滤的sharegpt数据集、合并处理后的数据文件,并通过自定义脚本移除拒绝回答的内容,生成了一个未经过滤的版本。作者正在使用这个未经过滤的数据集训练一个新的模型系列。
提供机构:
cognitivecomputations
原始信息汇总
数据集概述
数据集名称
- Allen AIs open-instruct dataset
数据集用途
- 用于训练Tulu系列模型
相关模型链接
数据集处理步骤
- 下载open-instruct仓库
- 执行
scripts/prepare_train_data.sh脚本,下载"unfiltered"版本的sharegpt数据集 - 合并
data/processed/**/*.jsonl为单个文件open-instruct.jsonl - 使用
remove_refusals.py脚本处理open-instruct.jsonl,生成open-instruct-uncensored.jsonl
当前进展
- 正在使用
open-instruct-uncensored.jsonl训练名为ehartford/tulu-uncensored的新模型系列



