ewof/hh-rlhf-instruct-unfiltered-deduped
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ewof/hh-rlhf-instruct-unfiltered-deduped
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Anthropic/hh-rlhf数据集进行去重和过滤后的版本,移除了18170个明显的对齐实例和51954个重复项,最终保留了99228条指令。数据集的创建者从Anthropic/hh-rlhf数据集中下载了所有数据(除了red team部分),并将其合并为一个文件,然后使用clean.py和dedupe.py脚本进行处理。数据集的灵感来源于ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered数据集,并且清理脚本的原始版本由anon8231489123提供,创建者对其进行了适配。
提供机构:
ewof
原始信息汇总
数据集概述
语言
- 英语(en)
数据规模
- 数据量:1K<n<10K
数据处理
- 数据集为Anthropic/hh-rlhf的未过滤和去重版本。
- 移除了18170个明显的对齐实例和51954个重复实例。
- 剩余99228条指令。
数据来源
- 数据下载自https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/09be8c5bbc57cb3887f3a9732ad6aa7ec602a1fa,不包括red team部分。
- 数据解压后合并为一个文件,运行clean.py和dedupe.py脚本得到最终文件。
脚本来源
- 清理脚本灵感来源于https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered。
- 清理脚本由anon8231489123的脚本改编而来,作者将其改编为wizardlm_clean.py,再进一步改编为clean.py。



