five

cognitivecomputations/open-instruct-uncensored

收藏
Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cognitivecomputations/open-instruct-uncensored
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Allen AI的open-instruct数据集,用于训练Tulu系列的模型。数据集经过处理,包括下载未过滤的sharegpt数据集、合并处理后的数据文件,并通过自定义脚本移除拒绝回答的内容,生成了一个未经过滤的版本。作者正在使用这个未经过滤的数据集训练一个新的模型系列。

该数据集是Allen AI的open-instruct数据集,用于训练Tulu系列的模型。数据集经过处理,包括下载未过滤的sharegpt数据集、合并处理后的数据文件,并通过自定义脚本移除拒绝回答的内容,生成了一个未经过滤的版本。作者正在使用这个未经过滤的数据集训练一个新的模型系列。
提供机构:
cognitivecomputations
原始信息汇总

数据集概述

数据集名称

  • Allen AIs open-instruct dataset

数据集用途

  • 用于训练Tulu系列模型

相关模型链接

数据集处理步骤

  1. 下载open-instruct仓库
  2. 执行scripts/prepare_train_data.sh脚本,下载"unfiltered"版本的sharegpt数据集
  3. 合并data/processed/**/*.jsonl为单个文件open-instruct.jsonl
  4. 使用remove_refusals.py脚本处理open-instruct.jsonl,生成open-instruct-uncensored.jsonl

当前进展

  • 正在使用open-instruct-uncensored.jsonl训练名为ehartford/tulu-uncensored的新模型系列
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作