five

ewof/hh-rlhf-instruct-unfiltered-deduped

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ewof/hh-rlhf-instruct-unfiltered-deduped
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于Anthropic/hh-rlhf数据集进行去重和过滤后的版本,移除了18170个明显的对齐实例和51954个重复项,最终保留了99228条指令。数据集的创建者从Anthropic/hh-rlhf数据集中下载了所有数据(除了red team部分),并将其合并为一个文件,然后使用clean.py和dedupe.py脚本进行处理。数据集的灵感来源于ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered数据集,并且清理脚本的原始版本由anon8231489123提供,创建者对其进行了适配。
提供机构:
ewof
原始信息汇总

数据集概述

语言

  • 英语(en)

数据规模

  • 数据量:1K<n<10K

数据处理

  • 数据集为Anthropic/hh-rlhf的未过滤和去重版本。
  • 移除了18170个明显的对齐实例和51954个重复实例。
  • 剩余99228条指令。

数据来源

  • 数据下载自https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/09be8c5bbc57cb3887f3a9732ad6aa7ec602a1fa,不包括red team部分。
  • 数据解压后合并为一个文件,运行clean.py和dedupe.py脚本得到最终文件。

脚本来源

  • 清理脚本灵感来源于https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered。
  • 清理脚本由anon8231489123的脚本改编而来,作者将其改编为wizardlm_clean.py,再进一步改编为clean.py。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作