five

chadlzx/hhrlhf-relabel

收藏
Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/chadlzx/hhrlhf-relabel
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是对22k随机采样的hhrlhf数据集(其中11k来自helpful-base,11k来自harmless-base)进行重新标注的版本。标注工作是基于llama-2-7b模型训练的奖励模型完成的。重新标注的Python脚本已提供,但警告用户在不完全理解数据集意义的情况下不要轻易使用。此外,数据集的重新标注完全依赖于llama-2-7b奖励模型,但该模型尚未上传。

该数据集是对22k随机采样的hhrlhf数据集(其中11k来自helpful-base,11k来自harmless-base)进行重新标注的版本。标注工作是基于llama-2-7b模型训练的奖励模型完成的。重新标注的Python脚本已提供,但警告用户在不完全理解数据集意义的情况下不要轻易使用。此外,数据集的重新标注完全依赖于llama-2-7b奖励模型,但该模型尚未上传。
提供机构:
chadlzx
原始信息汇总

数据集概述

数据集来源

  • 该数据集是对hhrlhf数据集的重新标注版本,原始数据集随机抽样自helpful-base和harmless-base各11k样本,总计22k样本。

标注过程

  • 标注工作由基于llama-2-7b训练的奖励模型完成。
  • 标注脚本使用Python编写,涉及模型评估和概率采样。

数据集使用建议

  • 作者不推荐轻率使用此数据集,强调理解数据集的重要性。
  • 数据集的重新标注依赖于尚未上传的llama-2-7b奖励模型。

数据集结构

  • 数据集包含对话上下文、选定回复和拒绝回复。
  • 通过模型评估,为每个样本生成新的标签,并记录在JSON文件中。

数据集处理

  • 使用transformers库中的AutoModelForSequenceClassification和AutoTokenizer进行模型加载和标记化。
  • 数据集加载和处理脚本包括随机种子设置、数据集加载、模型评估和结果存储。

数据集输出

  • 处理后的数据集以JSON格式存储,文件名为"hhrlhf_relabel_{split}_{data_dir}.json",其中{split}表示数据集分割(如训练或测试),{data_dir}表示数据集来源(helpful-base或harmless-base)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作