ewof/hh-rlhf-instruct-unfiltered-deduped

Name: ewof/hh-rlhf-instruct-unfiltered-deduped
Creator: ewof
Published: 2023-08-23 03:55:13
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ewof/hh-rlhf-instruct-unfiltered-deduped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Anthropic/hh-rlhf数据集进行去重和过滤后的版本，移除了18170个明显的对齐实例和51954个重复项，最终保留了99228条指令。数据集的创建者从Anthropic/hh-rlhf数据集中下载了所有数据（除了red team部分），并将其合并为一个文件，然后使用clean.py和dedupe.py脚本进行处理。数据集的灵感来源于ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered数据集，并且清理脚本的原始版本由anon8231489123提供，创建者对其进行了适配。

提供机构：

ewof

原始信息汇总

数据集概述

语言

英语（en）

数据规模

数据量：1K<n<10K

数据处理

数据集为Anthropic/hh-rlhf的未过滤和去重版本。
移除了18170个明显的对齐实例和51954个重复实例。
剩余99228条指令。

数据来源

数据下载自https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/09be8c5bbc57cb3887f3a9732ad6aa7ec602a1fa，不包括red team部分。
数据解压后合并为一个文件，运行clean.py和dedupe.py脚本得到最终文件。

脚本来源

清理脚本灵感来源于https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered。
清理脚本由anon8231489123的脚本改编而来，作者将其改编为wizardlm_clean.py，再进一步改编为clean.py。

5,000+

优质数据集

54 个

任务类型

进入经典数据集